論文の概要: Understanding Empirical Unlearning with Combinatorial Interpretability
- arxiv url: http://arxiv.org/abs/2602.19215v1
- Date: Sun, 22 Feb 2026 14:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.535418
- Title: Understanding Empirical Unlearning with Combinatorial Interpretability
- Title(参考訳): コンビナティブ・インタプリタビリティによる経験的アンラーニングの理解
- Authors: Shingo Kodama, Niv Cohen, Micah Adler, Nir Shavit,
- Abstract要約: 最近開発された解釈可能性の枠組みは、モデル重みで符号化された知識を直接検査することを可能にする。
本研究では,解釈可能性設定のベースライン未学習手法を再現し,その動作を2次元に沿って検討する。
実験の結果は、学習にもかかわらず知識がいかに持続するか、いつ再浮上するか、完全に解釈可能な設定に光を当てた。
- 参考スコア(独自算出の注目度): 11.245092170419227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many recent methods aim to unlearn or remove knowledge from pretrained models, seemingly erased knowledge often persists and can be recovered in various ways. Because large foundation models are far from interpretable, understanding whether and how such knowledge persists remains a significant challenge. To address this, we turn to the recently developed framework of combinatorial interpretability. This framework, designed for two-layer neural networks, enables direct inspection of the knowledge encoded in the model weights. We reproduce baseline unlearning methods within the combinatorial interpretability setting and examine their behavior along two dimensions: (i) whether they truly remove knowledge of a target concept (the concept we wish to remove) or merely inhibit its expression while retaining the underlying information, and (ii) how easily the supposedly erased knowledge can be recovered through various fine-tuning operations. Our results shed light within a fully interpretable setting on how knowledge can persist despite unlearning and when it might resurface.
- Abstract(参考訳): 最近の多くの手法は、事前訓練されたモデルから知識を解き放つことを目的としているが、一見消去された知識は、しばしば持続し、様々な方法で回復することができる。
大きな基礎モデルは解釈できないため、そのような知識がいかに持続するかを理解することは依然として重要な課題である。
この問題に対処するため、我々は最近開発された組合せ解釈可能性の枠組みに目を向ける。
このフレームワークは、2層ニューラルネットワーク用に設計されており、モデル重みに符号化された知識を直接検査することができる。
組み合わせ解釈可能性設定のベースライン未学習手法を再現し、その2次元に沿った振る舞いを考察する。
一 対象概念(取り除こうとする概念)の知識を真に取り除いたり、根底にある情報を保持しつつ、単にその表現を抑えたりすること。
(二)様々な微調整操作により、消されたとされる知識をいかに容易に回収することができるか。
実験の結果は、学習にもかかわらず知識がいかに持続するか、いつ再浮上するか、完全に解釈可能な設定に光を当てた。
関連論文リスト
- Understanding the Dilemma of Unlearning for Large Language Models [50.54260066313032]
Unlearningは、大きな言語モデル(LLM)から特定の知識を取り除こうとしている。
提案するunPactは,帰納的帰属とコントリビューショントラッキングによるアンラーニングのための解釈可能なフレームワークである。
論文 参考訳(メタデータ) (2025-09-29T12:15:19Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Unlearning through Knowledge Overwriting: Reversible Federated Unlearning via Selective Sparse Adapter [35.65566527544619]
フェデレーション学習は、プライバシ保護のためのコラボレーティブモデルトレーニングにおいて有望なパラダイムである。
本稿では,各レイヤの知識に対する感受性を分析することによって,まず重要なレイヤを識別するFUSEDを提案する。
アダプタは元のパラメータを変更することなくトレーニングされ、未学習の知識を残りの知識で上書きする。
論文 参考訳(メタデータ) (2025-02-28T04:35:26Z) - FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge [27.571021368687372]
本研究では,非学習手法が相互接続した知識の消去に失敗する現象を指す「表面的非学習」という概念を新たに定義する。
この定義に基づいて、実世界の知識QA設定における未学習の忠実度を分析し評価する新しいベンチマーク、FaithUnを導入する。
我々は,知識関連ニューロンのみを更新し,忠実な未学習を実現する新しい未学習手法KLUEを提案する。
論文 参考訳(メタデータ) (2025-02-26T15:11:03Z) - How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training [92.88889953768455]
大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
論文 参考訳(メタデータ) (2025-02-16T16:55:43Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。