論文の概要: Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization
- arxiv url: http://arxiv.org/abs/2410.12949v1
- Date: Wed, 16 Oct 2024 18:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:37.016335
- Title: Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization
- Title(参考訳): メカニスティック・アンラーニング:メカニスティック・ローカライゼーションによるロバストな知識アンラーニングと編集
- Authors: Phillip Guo, Aaquib Syed, Abhay Sheshadri, Aidan Ewart, Gintare Karolina Dziugaite,
- Abstract要約: 大規模言語モデルにおける知識編集と未学習の方法は、性能を損なうことなく、望ましくない知識の編集や削除を試みている。
異なる手法でローカライズされたトレーニングコンポーネントでは、学習の非学習と編集の堅牢性に大きな違いがある。
- 参考スコア(独自算出の注目度): 10.944365976254442
- License:
- Abstract: Methods for knowledge editing and unlearning in large language models seek to edit or remove undesirable knowledge or capabilities without compromising general language modeling performance. This work investigates how mechanistic interpretability -- which, in part, aims to identify model components (circuits) associated to specific interpretable mechanisms that make up a model capability -- can improve the precision and effectiveness of editing and unlearning. We find a stark difference in unlearning and edit robustness when training components localized by different methods. We highlight an important distinction between methods that localize components based primarily on preserving outputs, and those finding high level mechanisms with predictable intermediate states. In particular, localizing edits/unlearning to components associated with the lookup-table mechanism for factual recall 1) leads to more robust edits/unlearning across different input/output formats, and 2) resists attempts to relearn the unwanted information, while also reducing unintended side effects compared to baselines, on both a sports facts dataset and the CounterFact dataset across multiple models. We also find that certain localized edits disrupt the latent knowledge in the model more than any other baselines, making unlearning more robust to various attacks.
- Abstract(参考訳): 大規模言語モデルにおける知識編集と未学習の方法は、一般的な言語モデリング性能を損なうことなく、望ましくない知識や能力の編集や削除を試みている。
本研究では、モデル能力を構成する特定の解釈可能なメカニズムに関連するモデルコンポーネント(回路)を識別することを目的とした機械的解釈可能性(mechanistic interpretability)が、編集と未学習の精度と有効性を改善する方法について検討する。
異なる手法でローカライズされたトレーニングコンポーネントでは、学習の非学習と編集の堅牢性に大きな違いがある。
本稿では,主に保存出力に基づいてコンポーネントをローカライズする手法と,予測可能な中間状態を持つ高レベルメカニズムを見出す方法とを区別する。
特に、リコールのためのルックアップテーブル機構に関連するコンポーネントへの編集/学習のローカライズ
1) 異なる入力/出力フォーマットにまたがって、より堅牢な編集/学習につながる。
また、複数のモデルにわたるスポーツファクトデータセットとCounterFactデータセットの両方に基づいて、ベースラインと比較して意図しない副作用を低減する。
また、特定の局所的な編集によって、他のどのベースラインよりもモデルの潜伏した知識が破壊され、さまざまな攻撃に対して学習が堅牢になることもわかりました。
関連論文リスト
- RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - How Truncating Weights Improves Reasoning in Language Models [49.80959223722325]
特定のグローバルな関連が、特定の重み成分やトランスフォーマーブロックにどのように格納されるかを検討する。
実験的にも理論的にも、トレーニング中にどのように起こるのかを分析します。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Federated Unlearning via Active Forgetting [24.060724751342047]
インクリメンタルラーニングに基づく新しいフェデレーション・アンラーニング・フレームワークを提案する。
我々のフレームワークは、近似的再学習やデータ影響推定に依存する既存の非学習手法とは異なる。
論文 参考訳(メタデータ) (2023-07-07T03:07:26Z) - Knowledge-Infused Self Attention Transformers [11.008412414253662]
トランスフォーマーベースの言語モデルは、様々な自然言語処理タスクにおいて驚くべき成功を収めた。
本稿では,トランスモデルの異なるコンポーネントに知識を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T13:55:01Z) - Relational Local Explanations [11.679389861042]
我々は,入力変数間の関係解析に基づく,新しいモデルに依存しない,置換に基づく特徴帰属アルゴリズムを開発した。
機械学習のモデル決定とデータについて、より広範な洞察を得ることができます。
論文 参考訳(メタデータ) (2022-12-23T14:46:23Z) - Change Detection for Local Explainability in Evolving Data Streams [72.4816340552763]
局所的特徴帰属法はポストホックやモデルに依存しない説明法として人気がある。
ローカルな属性が、ストリーミングやオンラインアプリケーションのような、現実的で絶えず変化する設定でどのように振る舞うかは、しばしば不明である。
局所変化と概念ドリフトを検出するフレキシブルでモデルに依存しないCDLEEDSを提案する。
論文 参考訳(メタデータ) (2022-09-06T18:38:34Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Knodle: Modular Weakly Supervised Learning with PyTorch [5.874587993411972]
Knodleは、弱いデータアノテーション、強力なディープラーニングモデル、弱い教師付きトレーニングを改善する方法を分離するためのソフトウェアフレームワークです。
このモジュール化により、トレーニングプロセスはデータセットの特性、ルールの一致、あるいは最終的に予測に使用されるディープラーニングモデルの要素などのきめ細かい情報にアクセスできるようになる。
論文 参考訳(メタデータ) (2021-04-23T12:33:25Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。