論文の概要: Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective
- arxiv url: http://arxiv.org/abs/2407.16997v1
- Date: Wed, 24 Jul 2024 04:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:43:30.669659
- Title: Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective
- Title(参考訳): ハリー・ポッターの再考 : 因果的介入の視点からの未学習の目標に向けて
- Authors: Yujian Liu, Yang Zhang, Tommi Jaakkola, Shiyu Chang,
- Abstract要約: 学習対象と学習対象の未学習文書が与えられた場合,学習対象に関する情報のみを学習対象とするLLMの新たなタスクを導入する。
我々は、未学習の成功は、ジベリッシュをアウトプットしない、未学習の目標に関する事実を作らない、脱獄攻撃の事実情報を公開しない、といった基準を満たすべきだと論じている。
このフレームワークはWHPを正当化し拡張し、WHPを特殊なケースとして含む単純な未学習アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 32.93858075964824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates Who's Harry Potter (WHP), a pioneering yet insufficiently understood method for LLM unlearning. We explore it in two steps. First, we introduce a new task of LLM targeted unlearning, where given an unlearning target (e.g., a person) and some unlearning documents, we aim to unlearn only the information about the target, rather than everything in the unlearning documents. We further argue that a successful unlearning should satisfy criteria such as not outputting gibberish, not fabricating facts about the unlearning target, and not releasing factual information under jailbreak attacks. Second, we construct a causal intervention framework for targeted unlearning, where the knowledge of the unlearning target is modeled as a confounder between LLM input and output, and the unlearning process as a deconfounding process. This framework justifies and extends WHP, deriving a simple unlearning algorithm that includes WHP as a special case. Experiments on existing and new datasets show that our approach, without explicitly optimizing for the aforementioned criteria, achieves competitive performance in all of them. Our code is available at https://github.com/UCSB-NLP-Chang/causal_unlearn.git.
- Abstract(参考訳): 本稿では,LLMアンラーニングの先駆的手法であるWho's Harry Potter (WHP)について検討する。
私たちはそれを2つのステップで探求します。
まず、学習対象(例えば、人物)と学習対象(学習対象)が与えられた場合、学習対象(学習対象)に関する情報のみを学習対象とする。
さらに、未学習の成功は、ジベリッシュをアウトプットしない、未学習の目標に関する事実を作らない、脱獄攻撃の事実情報を公開しない、といった基準を満たすべきだと論じる。
第2に,未学習対象の知識をLLM入力と出力の共著者としてモデル化し,未学習過程を分離プロセスとして,未学習対象の因果的介入フレームワークを構築した。
このフレームワークはWHPを正当化し拡張し、WHPを特殊なケースとして含む単純な未学習アルゴリズムを導出する。
既存のデータセットと新しいデータセットの実験では、上記の基準を明示的に最適化することなく、これらのすべてにおいて競合的なパフォーマンスを達成することが示されています。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/causal_unlearn.gitで利用可能です。
関連論文リスト
- Evaluating Deep Unlearning in Large Language Models [26.01778651411487]
本研究では,現在行われている大規模言語モデルの未学習手法が,事実の表面的未学習を超えて成功するかどうかを考察する。
我々は、深層学習の程度を定量化するために、メートル法を設計し、リコールする。
その結果,1つの事実のみを深層学習するタスクでは,高いリコールで適切に学習できないか,あるいは他の無関係な事実を未学習にしてしまうことが判明した。
論文 参考訳(メタデータ) (2024-10-19T16:40:08Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks [37.061187080745654]
LLMにおける未学習に対する既存のアプローチは、単純な再学習攻撃の標的セットに驚くほど影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
論文 参考訳(メタデータ) (2024-06-19T09:03:21Z) - Reversing the Forget-Retain Objectives: An Efficient LLM Unlearning Framework from Logit Difference [39.29939437034823]
我々は、ログ差分(ULD)からのアンラーニングと呼ばれる新しいアンラーニングフレームワークを提案する。
本手法は,LLMの全体的な能力を維持しつつ,意図した忘れを効果的に実現し,トレーニング時間を3倍以上に短縮する。
論文 参考訳(メタデータ) (2024-06-12T19:26:35Z) - Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models [1.443696537295348]
プライバシーの漏洩と著作権侵害はまだ未発見だ。
我々の未学習のアルゴリズムは、データに依存しない/モデルに依存しないだけでなく、ユーティリティの保存やプライバシー保証の観点からも堅牢であることが証明されている。
論文 参考訳(メタデータ) (2024-03-13T18:57:30Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Knowledge-Aware Meta-learning for Low-Resource Text Classification [87.89624590579903]
本稿では,低リソーステキスト分類問題について検討し,メタトレーニングとメタテストのギャップを埋める。
抽出した文固有知識グラフから学習した各文に対する追加表現を提案する。
論文 参考訳(メタデータ) (2021-09-10T07:20:43Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。