論文の概要: Extracting Unlearned Information from LLMs with Activation Steering
- arxiv url: http://arxiv.org/abs/2411.02631v1
- Date: Mon, 04 Nov 2024 21:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:02:06.453810
- Title: Extracting Unlearned Information from LLMs with Activation Steering
- Title(参考訳): アクティブステアリングによるLCMからの未学習情報の抽出
- Authors: Atakan Seyitoğlu, Aleksei Kuvshinov, Leo Schwinn, Stephan Günnemann,
- Abstract要約: トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
- 参考スコア(独自算出の注目度): 46.16882599881247
- License:
- Abstract: An unintended consequence of the vast pretraining of Large Language Models (LLMs) is the verbatim memorization of fragments of their training data, which may contain sensitive or copyrighted information. In recent years, unlearning has emerged as a solution to effectively remove sensitive knowledge from models after training. Yet, recent work has shown that supposedly deleted information can still be extracted by malicious actors through various attacks. Still, current attacks retrieve sets of possible candidate generations and are unable to pinpoint the output that contains the actual target information. We propose activation steering as a method for exact information retrieval from unlearned LLMs. We introduce a novel approach to generating steering vectors, named Anonymized Activation Steering. Additionally, we develop a simple word frequency method to pinpoint the correct answer among a set of candidates when retrieving unlearned information. Our evaluation across multiple unlearning techniques and datasets demonstrates that activation steering successfully recovers general knowledge (e.g., widely known fictional characters) while revealing limitations in retrieving specific information (e.g., details about non-public individuals). Overall, our results demonstrate that exact information retrieval from unlearned models is possible, highlighting a severe vulnerability of current unlearning techniques.
- Abstract(参考訳): LLM(Large Language Models)の膨大な事前トレーニングの意図しない結果として、機密情報や著作権情報を含むトレーニングデータの断片の冗長な記憶があげられる。
近年、訓練後のモデルからセンシティブな知識を効果的に除去するソリューションとして、アンラーニングが登場している。
しかし、近年の研究によると、削除されたとされる情報は、様々な攻撃を通じて悪意あるアクターによって抽出される可能性がある。
それでも、現在の攻撃は、可能性のある候補世代のセットを検索し、実際のターゲット情報を含む出力を特定できない。
未学習LLMからの正確な情報検索手法として,アクティベーションステアリングを提案する。
我々は、匿名化活性化ステアリングと呼ばれるステアリングベクトルを生成する新しいアプローチを導入する。
さらに、未学習情報を取得する際に、候補の中から正しい回答をピンポイントする簡単な単語頻度法を開発する。
複数のアンラーニング手法やデータセットを用いて評価した結果,アクティベーションステアリングは一般知識(例えば,広く知られている架空の文字)の回復に成功し,特定の情報(例えば,非公的な個人の詳細)を検索する際の限界を明らかにした。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
関連論文リスト
- RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Breaking Chains: Unraveling the Links in Multi-Hop Knowledge Unlearning [38.03304773600225]
大きな言語モデル(LLM)は、しばしば個人または著作権のあるデータを含む巨大な情報ストアとして機能し、それらをゼロから再トレーニングすることは不可能である。
MUNCHは、マルチホップクエリをサブクエストに分解し、最終的な意思決定における未学習モデルの不確実性を活用する、単純な不確実性に基づくアプローチである。
論文 参考訳(メタデータ) (2024-10-17T07:00:15Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks [37.061187080745654]
LLMにおける未学習に対する既存のアプローチは、単純な再学習攻撃の標的セットに驚くほど影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
論文 参考訳(メタデータ) (2024-06-19T09:03:21Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Adversarial Targeted Forgetting in Regularization and Generative Based
Continual Learning Models [2.8021833233819486]
継続的(あるいはインクリメンタル)な学習アプローチは、その後のバッチやストリーミングデータから追加の知識やタスクを学ぶ必要がある場合に使用される。
知的敵は、既存の知識を時間とともに保持する連続学習アルゴリズムの能力を活用できることを示す。
敵は、そのタスクのテストインスタンスに慎重に設計されたバックドアサンプルを挿入することで、任意のタスクについて「偽のメモリ」を作成できることを示します。
論文 参考訳(メタデータ) (2021-02-16T18:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。