論文の概要: CLUE: Conflict-guided Localization for LLM Unlearning Framework
- arxiv url: http://arxiv.org/abs/2509.20977v1
- Date: Thu, 25 Sep 2025 10:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.836845
- Title: CLUE: Conflict-guided Localization for LLM Unlearning Framework
- Title(参考訳): CLUE: LLMアンラーニングフレームワークのための衝突誘導型ローカライゼーション
- Authors: Hang Chen, Jiaying Zhu, Xinyu Yang, Wenya Wang,
- Abstract要約: LLMアンラーニングフラムワークのための衝突誘導型ローカライゼーションを提案する。
この枠組みは、重要なニューロンからなる、忘れと保持回路を特定し、その後、回路を結合正常な形に変換する。
実験により、CLUEは正確な神経局在化によって優れた忘れの有効性を達成し、有用性を維持できることが示された。
- 参考スコア(独自算出の注目度): 35.90665719234101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The LLM unlearning aims to eliminate the influence of undesirable data without affecting causally unrelated information. This process typically involves using a forget set to remove target information, alongside a retain set to maintain non-target capabilities. While recent localization-based methods demonstrate promise in identifying important neurons to be unlearned, they fail to disentangle neurons responsible for forgetting undesirable knowledge or retaining essential skills, often treating them as a single entangled group. As a result, these methods apply uniform interventions, risking catastrophic over-forgetting or incomplete erasure of the target knowledge. To address this, we turn to circuit discovery, a mechanistic interpretability technique, and propose the Conflict-guided Localization for LLM Unlearning framEwork (CLUE). This framework identifies the forget and retain circuit composed of important neurons, and then the circuits are transformed into conjunctive normal forms (CNF). The assignment of each neuron in the CNF satisfiability solution reveals whether it should be forgotten or retained. We then provide targeted fine-tuning strategies for different categories of neurons. Extensive experiments demonstrate that, compared to existing localization methods, CLUE achieves superior forget efficacy and retain utility through precise neural localization.
- Abstract(参考訳): LLMアンラーニングは、因果関係のない情報に影響を与えることなく、望ましくないデータの影響を取り除くことを目的としている。
このプロセスは通常、非ターゲット機能を維持するためのレザーブセットとともに、ターゲット情報を削除するためにリットセットを使用する。
最近のローカライゼーションに基づく手法は、重要なニューロンを未学習で識別する可能性を証明しているが、彼らは望ましくない知識を忘れたり、重要なスキルを保持する責任を負うニューロンを解き放つことに失敗し、しばしばそれらを単一の絡み合ったグループとして扱う。
その結果、これらの手法は均一な介入を施し、破滅的な過剰な鍛造または標的知識の不完全な消去を危険にさらすことになる。
そこで我々は,LLMアンラーニング・フラムEwork (CLUE) における回路発見, 機械的解釈可能性技術, およびコンフリクト誘導型局所化を提案する。
この枠組みは、重要なニューロンからなる忘れと保持回路を特定し、その後、回路を結合正規形(CNF)に変換する。
CNFの満足度解における各ニューロンの割り当ては、それが忘れられるか、保持されるべきかを明らかにする。
次に、異なるカテゴリのニューロンに対して、標的となる微調整戦略を提供する。
大規模な実験では、既存の局所化法と比較して、CLUEはより優れた忘れの有効性を達成し、正確な神経局在化によって有用性を維持することが示されている。
関連論文リスト
- Safety Alignment via Constrained Knowledge Unlearning [11.225354394106226]
我々は、新しい安全アライメント戦略、制約付き知識アンラーニング(CKU)を提案する。
CKUは、知識のローカライゼーションと保持、有害な知識の学習の2つの主な目的に焦点を当てている。
実験の結果,CKUは全体の性能を損なうことなくモデル安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-24T08:29:50Z) - Redirection for Erasing Memory (REM): Towards a universal unlearning method for corrupted data [55.31265817705997]
本稿では,視覚分類器における多様な学習課題を特徴付ける概念空間を提案する。
本稿では,非学習時に導入した専用ニューロンに劣化したデータをリダイレクトする手法であるRedirection for Erasing Memory (REM)を提案する。
REMは、設計された領域の外で失敗する以前のSOTAメソッドとは対照的に、タスクの空間にわたって強く機能する。
論文 参考訳(メタデータ) (2025-05-23T10:47:27Z) - What should a neuron aim for? Designing local objective functions based on information theory [41.39714023784306]
バイオインスパイアされた局所学習目標を設計することで、自己組織化された人工ニューロンをどのように達成できるかを示す。
これらの目標は、情報理論の最近の拡張である部分情報分解を用いてパラメータ化される。
我々の研究は、地域学習戦略の原則的情報理論の基礎を推進している。
論文 参考訳(メタデータ) (2024-12-03T14:45:46Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Learnable Privacy Neurons Localization in Language Models [19.984172475680182]
大規模言語モデル(LLM)内のPII感受性ニューロン(プライバシーニューロン)をピンポイントする先駆的手法を提案する。
本手法では,LLMのPIIを記憶する特定のニューロンを,対向訓練により局所化するために,学習可能な二重マスクを用いる。
局所的なプライバシニューロンを活性化させることにより、PIIリスク軽減の可能性を検証することを提案する。
論文 参考訳(メタデータ) (2024-05-16T08:11:08Z) - Dissecting Language Models: Machine Unlearning via Selective Pruning [0.7373617024876725]
本稿では,大規模言語モデル(LLM)に特化して設計された機械学習手法を提案する。
我々は,LLMの選択的プルーニング法を導入し,ネットワーク全体の性能と比較して,標的能力に対するニューロンの重要性から神経細胞を除去する。
LLMのフィードフォワードニューロンとアテンションニューロンはどちらも専門的であり、特定のタスクにおいては、特定のニューロンは他のニューロンよりも重要である。
論文 参考訳(メタデータ) (2024-03-02T17:10:44Z) - Bio-Inspired, Task-Free Continual Learning through Activity
Regularization [3.5502600490147196]
継続的学習アプローチは通常、個別のタスク境界を必要とする。
我々は神経科学からインスピレーションを得ており、忘れるのを防ぐために、スパースで重複しない神経表現が提案されている。
空間性に加えて,各層に横方向のリカレント接続を導入し,事前学習した表現をさらに保護する。
本手法は,タスク境界に関する情報を必要とせずに,弾性重み統合やシナプスインテリジェンスなどのよく知られたCL手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-12-08T15:14:20Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。