論文の概要: LLM Unlearning Should Be Form-Independent
- arxiv url: http://arxiv.org/abs/2506.07795v1
- Date: Mon, 09 Jun 2025 14:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.990838
- Title: LLM Unlearning Should Be Form-Independent
- Title(参考訳): LLMアンラーニングは形式に依存しないべき
- Authors: Xiaotian Ye, Mengqi Zhang, Shu Wu,
- Abstract要約: 大言語モデル(LLM)は、モデル内の望ましくない知識を消去または抑制することを目的としている。
既存のアンラーニング手法の有効性は、トレーニングサンプルの形式に大きく依存する。
そこで我々は,新しいトレーニングフリー手法であるRanc-one Concept Redirection (ROCR) を有望なソリューションパスとして紹介する。
- 参考スコア(独自算出の注目度): 14.222205207889543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) unlearning aims to erase or suppress undesirable knowledge within the model, offering promise for controlling harmful or private information to prevent misuse. However, recent studies highlight its limited efficacy in real-world scenarios, hindering practical adoption. In this study, we identify a pervasive issue underlying many downstream failures: the effectiveness of existing unlearning methods heavily depends on the form of training samples and frequently fails to generalize to alternate expressions of the same knowledge. We formally characterize this problem as Form-Dependent Bias and systematically investigate its specific manifestation patterns across various downstream tasks. To quantify its prevalence and support future research, we introduce ORT, a novel benchmark designed to evaluate the robustness of unlearning methods against variations in knowledge expression. Results reveal that Form-Dependent Bias is both widespread and severe among current techniques. We argue that LLM unlearning should be form-independent to address the endless forms of downstream tasks encountered in real-world security-critical scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR), a novel training-free method, as a promising solution path. ROCR performs unlearning by targeting the invariants in downstream tasks, specifically the activated dangerous concepts. It is capable of modifying model parameters within seconds to redirect the model's perception of a specific unlearning target concept to another harmless concept. Extensive experiments demonstrate that ROCR significantly improves unlearning effectiveness compared to traditional methods while generating highly natural outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、モデル内の望ましくない知識を消去または抑制することを目的としており、悪用を防ぐために有害またはプライベートな情報を制御することを約束する。
しかし、近年の研究は、現実のシナリオにおける限られた有効性を強調し、実践的な採用を妨げている。
既存の未学習手法の有効性はトレーニングサンプルの形式に大きく依存しており、同じ知識の代替表現に一般化に失敗することが多い。
本稿では,この問題を形式依存バイアスとして形式的に特徴付け,様々な下流タスクにまたがる特定の表現パターンを体系的に検討する。
我々は,その有病率を定量化し,今後の研究を支援するために,知識表現のバリエーションに対する未学習手法の堅牢性を評価するための新しいベンチマークであるORTを紹介する。
その結果,現在の技術では,フォーム依存バイアスが広範かつ深刻であることが判明した。
我々は、LLMアンラーニングは、現実世界のセキュリティクリティカルなシナリオで遭遇するダウンストリームタスクの無限の形式に対処するために、フォーム依存であるべきだと論じる。
この目標に向けて,新しいトレーニング不要な手法であるRan-one Concept Redirection (ROCR) を将来性のあるソリューションパスとして導入する。
ROCRは下流タスク、特にアクティベートされた危険な概念の不変性をターゲットとして、アンラーニングを実行する。
モデルパラメータを数秒以内に修正して、特定の未学習のターゲット概念に対するモデルの認識を、別の無害な概念にリダイレクトすることができる。
広汎な実験により、ROCRは従来の方法に比べて学習効率を著しく向上し、かつ、非常に自然な出力を生成することが示された。
関連論文リスト
- UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - SEFE: Superficial and Essential Forgetting Eliminator for Multimodal Continual Instruction Tuning [62.18315467642528]
MCIT (Multimodal Continual Instruction Tuning) は,Multimodal Large Language Models (MLLM) が,悲惨なことを忘れずに,新たなタスクを段階的に学習できるようにすることを目的としている。
表面的な忘れは、モデルの知識が真に失われるのではなく、以前のタスクに対する応答が期待されたフォーマットから逸脱している場合を指す。
対照的に、本質的な忘れは、モデルが正しくフォーマットされているが、事実的に不正確な答えを提供し、真の知識の喪失を示す状況を指す。
論文 参考訳(メタデータ) (2025-05-05T09:09:41Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning [8.831339626121848]
概念アンラーニングは、非倫理的または有害なテキスト・ツー・イメージ拡散モデルの使用に対する有望な解決策である。
我々のベンチマークでは、33のターゲットコンセプトがカバーされており、1概念あたり16,000のプロンプトが含まれており、Celebrity、Style、Intellectual Property、NSFWの4つのカテゴリにまたがっている。
本研究は,全ての評価基準において1つの方法が排他的でないことを明らかにする。
論文 参考訳(メタデータ) (2024-10-08T03:30:39Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unlearning Backdoor Attacks through Gradient-Based Model Pruning [10.801476967873173]
本研究では,その軽減を未学習課題として扱うことによって,バックドア攻撃に対抗する新しい手法を提案する。
このアプローチは単純さと有効性を提供し、データ可用性に制限のあるシナリオに適しています。
論文 参考訳(メタデータ) (2024-05-07T00:36:56Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。