論文の概要: One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them
- arxiv url: http://arxiv.org/abs/2605.28839v1
- Date: Sat, 18 Apr 2026 16:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.554878
- Title: One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them
- Title(参考訳): マスク1つですべてのテーマを決定:編集後に隠されたファクトと、テーマを見つける方法
- Authors: Ali Holmov, Paul Youssef, Nandi Schoots, Christin Seifert,
- Abstract要約: ROMEとMEMITは、ウェイトを変更することでトランスフォーマーモデルの事実関連を更新する。
我々は、編集がどの事実が修正されているかに関わらず、共通のメカニズムに依存しているかどうかを検討する。
編集が知識を上書きするのではなく抑制することの発見は、なぜROMとMEMITが関連する事実の変更を伝播しないのかを説明する。
- 参考スコア(独自算出の注目度): 7.195629836132288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge editing methods such as ROME and MEMIT update factual associations in transformer models by modifying MLP weights. While evaluated mainly by output behavior, their internal mechanism remains underexplored. We investigate whether edits rely on a common mechanism, regardless of which fact is modified. Despite fact-specific weight changes, we argue that ROME and MEMIT target the same subset of weights critical for maintaining edits. To isolate this subset, we train a compact binary mask over the edited weights. The mask reverses 80% of edits on the training set and over 70% on the test set, confirming that diverse edits share a common functional structure. Our analysis reveals that the mask reverses edits by eliminating overattention in later layers. Additionally, we show that injecting the mask during editing drops editing success from 98% to 38%, demonstrating that this mechanism is necessary for edits to succeed. Our finding that edits suppress rather than overwrite knowledge explains why ROME and MEMIT fail to propagate changes to related facts. The identified common functional subspace informs detection and defense against unwanted edits.
- Abstract(参考訳): ROMEやMEMITのような知識編集手法は、MLP重みを変更して、トランスフォーマーモデルにおける事実関連を更新する。
主に出力の振舞いによって評価されるが、内部メカニズムは未解明のままである。
我々は、編集がどの事実が修正されているかに関わらず、共通のメカニズムに依存しているかどうかを検討する。
事実特異的な重み変化にもかかわらず、ROMとMEMITは編集の維持に重要な重みの同じサブセットをターゲットにしていると論じる。
この部分集合を分離するために、我々は、編集された重みの上にコンパクトなバイナリマスクを訓練する。
マスクはトレーニングセットの編集の80%を反転させ、テストセットの70%以上を反転させ、多様な編集が共通の機能構造を共有することを確認した。
分析の結果,マスクは後層における過剰な注意を排除し,編集を反転させることがわかった。
さらに、編集中にマスクを注入すると、編集成功率が98%から38%に低下し、編集が成功するためにはこのメカニズムが必要であることを示す。
編集が知識を上書きするのではなく抑制することの発見は、なぜROMとMEMITが関連する事実の変更を伝播しないのかを説明する。
特定された共通機能部分空間は、不要な編集に対する検出と防御を通知する。
関連論文リスト
- Edit Where You Mean: Region-Aware Adapter Injection for Mask-Free Local Image Editing [28.295031615161136]
大規模な拡散変換器 (DiT) はグローバルな編集命令に従っているが、常に非関連領域に局所的な編集をリークする。
そこで我々はAdaptEditを紹介した。AdaptEditは、訓練された命令と地域対応のアダプタフレームワークである。
AdaptEditは最先端の結果を達成し、マスクフリーとオラクルマスクのベースラインを同時に上回る。
論文 参考訳(メタデータ) (2026-04-26T15:28:02Z) - The Anatomy of an Edit: Mechanism-Guided Activation Steering for Knowledge Editing [52.315369633116255]
大規模言語モデル(LLM)は知識ベースとしてますます使われているが、それらを最新の状態に保つには、目標とする知識編集(KE)が必要である。
ニューロンレベルの知識属性(NLKA)を用いたKEの力学的考察
代表的KE法全体にわたって、我々は一貫したパターンを見出す: ミッド・トゥ・レイト・アテンションは、主に新しいターゲットを促進するが、アテンションとFFNモジュールは、元の事実を抑えるために協力する。
本研究の目的は,MEGA(Mechanism-Guided Activation steering method)を提案することである。
論文 参考訳(メタデータ) (2026-03-21T12:40:15Z) - Quantifying Edits Decay in Fine-tuned LLMs [17.377278510871843]
本研究では,微調整が知識編集に与える影響について検討する。
我々は,2つの最先端編集手法(MEMIT,AlphaEdit)と3つの微調整手法を評価した。
以上の結果から,微調整後に編集が崩壊し,生存は構成によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-08T04:58:03Z) - MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [76.28901550926021]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
我々は,学習済みモデルのコア能力を保ちながら,残メモリを介して知識を注入する,新しいスケーラブルなフレームワークMEMOIRを提案する。
MeMOIRは信頼性、一般化、ローカリティのメトリクスにまたがる最先端のパフォーマンスを実現し、最小限の忘れ物で数千のシーケンシャルな編集にスケールする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - Tracing and Reversing Rank-One Model Edits [5.260519479124422]
本研究は,Ran-One Model Editing (ROME) 手法に着目し,知識編集のトレーサビリティと可逆性について考察する。
ROMEは, 編集重量行列に特徴的な分布パターンを導入し, 編集重量の探索に有効な信号として機能することを示す。
本稿では,編集プロンプトにアクセスすることなく,修正重みから直接編集対象エンティティを推定し,95%以上の精度を実現する方法を提案する。
論文 参考訳(メタデータ) (2025-05-27T07:27:01Z) - MEMIT-Merge: Addressing MEMIT's Key-Value Conflicts in Same-Subject Batch Editing for LLMs [37.374258713584496]
同一主題を共有する複数の編集を含むバッチ処理において,MEMITの編集効率は著しく低下することを示した。
我々は、同じ主題を共有する事実に対して、価値プロセスをマージする強化されたアプローチであるMEMIT-Mergeを提案する。
論文 参考訳(メタデータ) (2025-02-11T07:42:09Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。