論文の概要: Revealing the Deceptiveness of Knowledge Editing: A Mechanistic Analysis of Superficial Editing
- arxiv url: http://arxiv.org/abs/2505.12636v1
- Date: Mon, 19 May 2025 02:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.363886
- Title: Revealing the Deceptiveness of Knowledge Editing: A Mechanistic Analysis of Superficial Editing
- Title(参考訳): 知識編集の認知性を明らかにする:表面編集の力学解析
- Authors: Jiakuan Xie, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: 本稿では,この現象を説明するために,表層編集の概念を紹介する。
包括的評価の結果,この問題は既存のアルゴリズムに重大な課題をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 18.12933371693374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge editing, which aims to update the knowledge encoded in language models, can be deceptive. Despite the fact that many existing knowledge editing algorithms achieve near-perfect performance on conventional metrics, the models edited by them are still prone to generating original knowledge. This paper introduces the concept of "superficial editing" to describe this phenomenon. Our comprehensive evaluation reveals that this issue presents a significant challenge to existing algorithms. Through systematic investigation, we identify and validate two key factors contributing to this issue: (1) the residual stream at the last subject position in earlier layers and (2) specific attention modules in later layers. Notably, certain attention heads in later layers, along with specific left singular vectors in their output matrices, encapsulate the original knowledge and exhibit a causal relationship with superficial editing. Furthermore, we extend our analysis to the task of superficial unlearning, where we observe consistent patterns in the behavior of specific attention heads and their corresponding left singular vectors, thereby demonstrating the robustness and broader applicability of our methodology and conclusions. Our code is available here.
- Abstract(参考訳): 言語モデルにエンコードされた知識を更新することを目的とした知識編集は、騙される可能性がある。
多くの既存の知識編集アルゴリズムが従来のメトリクスでほぼ完璧な性能を達成しているにもかかわらず、それらによって編集されたモデルは依然として元の知識を生成する傾向にある。
本稿では,この現象を説明するために,表層編集の概念を紹介する。
包括的評価の結果,この問題が既存のアルゴリズムに重大な課題をもたらすことが明らかとなった。
組織的な調査により,(1)前層の最後の被写体位置にある残留ストリームと,(2)後層における特定の注意モジュールの2つの要因を同定し,検証した。
特に、後層の特定の注意は、出力行列内の特定の左特異ベクトルとともに、元の知識をカプセル化し、表面的な編集と因果関係を示す。
さらに,その分析を表面的未学習の課題にまで拡張し,特定の注意頭とそれに対応する左特異ベクトルの挙動における一貫したパターンを観察することで,方法論と結論の堅牢性とより広範な適用性を示す。
私たちのコードはここにある。
関連論文リスト
- Related Knowledge Perturbation Matters: Rethinking Multiple Pieces of Knowledge Editing in Same-Subject [49.559994791305535]
現在最先端の編集手法は、複数の関連知識を同じ主題に編集する作業で苦労している。
本稿では,textS2textRKE$(Same-Subject Related Knowledge Editing)ベンチマークを紹介する。
実験の結果,ROMやMEMITのような主流の位置情報編集手法だけが「関連する知識の摂動」を示すことがわかった。
論文 参考訳(メタデータ) (2025-02-08T04:47:17Z) - Propagation and Pitfalls: Reasoning-based Assessment of Knowledge
Editing through Counterfactual Tasks [36.292901021210575]
ReCoE(Reasoning-based Counterfactual Editing dataset)という新しい推論ベースのベンチマークを導入する。
我々は既存の知識編集技術を徹底的に分析し、入力強化、微調整、位置と編集を行う。
全てのモデル編集手法は、特に特定の推論スキームにおいて、このデータセットで顕著に低い性能を示す。
論文 参考訳(メタデータ) (2024-01-31T04:12:59Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。