論文の概要: Is Model Editing Built on Sand? Revealing Its Illusory Success and Fragile Foundation
- arxiv url: http://arxiv.org/abs/2510.00625v1
- Date: Wed, 01 Oct 2025 07:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.452485
- Title: Is Model Editing Built on Sand? Revealing Its Illusory Success and Fragile Foundation
- Title(参考訳): モデル編集は砂の上に構築されるのか?
- Authors: Wei Liu, Haomei Xu, Bingqing Liu, Zhiying Deng, Haozhao Wang, Jun Wang, Ruixuan Li, Yee Whye Teh, Wee Sun Lee,
- Abstract要約: 大きな言語モデル(LLM)は、必然的に時代遅れまたは誤った知識をエンコードする。そのような知識の更新、削除、そして忘れは、アライメント、安全性、その他の問題にとって重要である。
この問題を解決するために、モデル編集は有望なパラダイムとして現れ、特定の事実が更新され、他の知識を保持しながら、パラメータの小さなサブセットを正確に編集する。
前回の論文で大きな成功を収めたにもかかわらず、編集の信頼性は脆弱な基盤にかかっていることが判明した。
我々の経験的証拠は、編集が完全な意味論よりもショートカットに基づく可能性が高いことを示し、さらなる進歩の前にモデル編集の基盤を急激な再考を求める。
- 参考スコア(独自算出の注目度): 50.40861036534546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) inevitably encode outdated or incorrect knowledge. Updating, deleting, and forgetting such knowledge is important for alignment, safety, and other issues. To address this issue, model editing has emerged as a promising paradigm: by precisely editing a small subset of parameters such that a specific fact is updated while preserving other knowledge. Despite its great success reported in previous papers, we find the apparent reliability of editing rests on a fragile foundation and the current literature is largely driven by illusory success. The fundamental goal of steering the model's output toward a target with minimal modification would encourage exploiting hidden shortcuts, rather than utilizing real semantics. This problem directly challenges the feasibility of the current model editing literature at its very foundation, as shortcuts are inherently at odds with robust knowledge integration. Coincidentally, this issue has long been obscured by evaluation frameworks that lack the design of negative examples. To uncover it, we systematically develop a suite of new evaluation methods. Strikingly, we find that state-of-the-art approaches collapse even under the simplest negation queries. Our empirical evidence shows that editing is likely to be based on shortcuts rather than full semantics, calling for an urgent reconsideration of the very basis of model editing before further advancements can be meaningfully pursued.
- Abstract(参考訳): 大きな言語モデル(LLM)は、必然的に時代遅れまたは誤った知識を符号化する。
このような知識の更新、削除、忘れは、アライメント、安全性、その他の問題にとって重要です。
この問題を解決するために、モデル編集は有望なパラダイムとして現れ、特定の事実が更新され、他の知識を保持しながら、パラメータの小さなサブセットを正確に編集する。
以前の論文で報告された大きな成功にもかかわらず、編集の信頼性は脆弱な基礎の上で明らかであり、現在の文献は概ね幻想的な成功によって引き起こされている。
最小限の修正でターゲットに向けてモデルの出力をステアリングするという基本的な目標は、実際のセマンティクスを活用するのではなく、隠れたショートカットを活用することである。
ショートカットは本質的には堅牢な知識統合と相反するので、この問題は現在のモデル編集文学の基盤における実現可能性に直接挑戦する。
偶然にも、この問題は、否定的な例の設計を欠いている評価フレームワークによって、長い間曖昧にされてきた。
そこで我々は,新しい評価手法を体系的に開発する。
興味深いことに、最も単純な否定クエリの下でも、最先端のアプローチは崩壊する。
我々の実証的な証拠は、編集が完全な意味論よりもショートカットに基づく可能性が高いことを示しており、さらなる進歩が追求される前に、モデル編集の基盤を緊急に再考することを要求している。
関連論文リスト
- The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.63231238452797]
既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。
インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。
その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
論文 参考訳(メタデータ) (2024-10-24T14:36:48Z) - Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。
また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Propagation and Pitfalls: Reasoning-based Assessment of Knowledge
Editing through Counterfactual Tasks [36.292901021210575]
ReCoE(Reasoning-based Counterfactual Editing dataset)という新しい推論ベースのベンチマークを導入する。
我々は既存の知識編集技術を徹底的に分析し、入力強化、微調整、位置と編集を行う。
全てのモデル編集手法は、特に特定の推論スキームにおいて、このデータセットで顕著に低い性能を示す。
論文 参考訳(メタデータ) (2024-01-31T04:12:59Z) - Edit at your own risk: evaluating the robustness of edited models to
distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。
編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。
これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2023-02-28T19:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。