論文の概要: Towards Safer Large Language Models through Machine Unlearning
- arxiv url: http://arxiv.org/abs/2402.10058v2
- Date: Wed, 5 Jun 2024 04:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 01:21:50.715478
- Title: Towards Safer Large Language Models through Machine Unlearning
- Title(参考訳): 機械学習による大規模言語モデル構築に向けて
- Authors: Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, Meng Jiang,
- Abstract要約: SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
- 参考スコア(独自算出の注目度): 19.698620794387338
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has demonstrated their vast potential across various domains, attributed to their extensive pretraining knowledge and exceptional generalizability. However, LLMs often encounter challenges in generating harmful content when faced with problematic prompts. To address this problem, existing work attempted to implement a gradient ascent based approach to prevent LLMs from producing harmful output. While these methods can be effective, they frequently impact the model utility in responding to normal prompts. To address this gap, we introduce Selective Knowledge negation Unlearning (SKU), a novel unlearning framework for LLMs, designed to eliminate harmful knowledge while preserving utility on normal prompts. Specifically, SKU is consisted of two stages: harmful knowledge acquisition stage and knowledge negation stage. The first stage aims to identify and acquire harmful knowledge within the model, whereas the second is dedicated to remove this knowledge. SKU selectively isolates and removes harmful knowledge in model parameters, ensuring the model's performance remains robust on normal prompts. Our experiments conducted across various LLM architectures demonstrate that SKU identifies a good balance point between removing harmful information and preserving utility.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、その膨大な事前学習知識と例外的な一般化性によって、様々な領域にまたがる大きな可能性を実証している。
しかし、LSMは問題のあるプロンプトに直面すると有害なコンテンツを生成するという課題に遭遇することが多い。
この問題に対処するため、既存の研究はLSMが有害な出力を発生させないために勾配上昇に基づくアプローチを導入しようとした。
これらの手法は有効であるが、通常のプロンプトに対応する際にしばしばモデルユーティリティに影響を及ぼす。
このギャップに対処するために、我々は、通常のプロンプトで実用性を維持しながら有害な知識を排除し、LLMのための新しい非学習フレームワークである選択的知識否定学習(SKU)を紹介した。
具体的には、SKUは有害な知識獲得段階と知識否定段階の2段階からなる。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
SKUはモデルパラメータの有害な知識を選択的に分離し除去し、モデルの性能が正常なプロンプトに対して堅牢であることを保証する。
各種LLMアーキテクチャを用いて実施した実験により,有害情報除去と有効性維持のバランス点をSKUが同定できることが確認された。
関連論文リスト
- SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions [37.172662930947446]
命令追従型大規模言語モデル(LLM)は、個人または著作権のある情報を故意に開示する。
SNAPは,情報を選択的に学習するための革新的なフレームワークである。
我々は,NLPベンチマークにおけるフレームワークの評価を行い,提案手法が元のLLM能力を維持していることを示す。
論文 参考訳(メタデータ) (2024-06-18T06:54:05Z) - Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs [18.629717934007513]
SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。
我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2024-06-17T17:35:52Z) - Large Language Model Unlearning via Embedding-Corrupted Prompts [10.889859281637406]
本稿では,大規模言語モデルのための軽量なアンラーニングフレームワークであるEmbeding-Corrupted (ECO) Promptsを紹介する。
推論中に未学習の状態を識別し、忘れるプロンプトを保護するためにプロンプト分類器を用いて強制する。
その結果, 学習対象を満足させるだけでなく, 忘れることを意図したデータに基づいて訓練されたことのないモデルから得られる出力を, より正確に近似できることがわかった。
論文 参考訳(メタデータ) (2024-06-12T06:56:20Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges [11.228131492745842]
大規模言語モデル(LLM)は、自然言語処理における新しい研究パラダイムを刺激している。
知識に基づく質問応答と推論の優れた能力にもかかわらず、欠陥や有害な知識を保持する可能性は、悪意のあるアプリケーションにリスクをもたらす。
機械学習の類似研究から派生した知識アンラーニングは、この問題に対処するための有望な道を示す。
論文 参考訳(メタデータ) (2023-11-27T12:37:51Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。