論文の概要: Tracing and Reversing Rank-One Model Edits
- arxiv url: http://arxiv.org/abs/2505.20819v1
- Date: Tue, 27 May 2025 07:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.473934
- Title: Tracing and Reversing Rank-One Model Edits
- Title(参考訳): ランクワンモデル編集の追跡と反転
- Authors: Paul Youssef, Zhixue Zhao, Christin Seifert, Jörg Schlötterer,
- Abstract要約: 本研究は,Ran-One Model Editing (ROME) 手法に着目し,知識編集のトレーサビリティと可逆性について考察する。
ROMEは, 編集重量行列に特徴的な分布パターンを導入し, 編集重量の探索に有効な信号として機能することを示す。
本稿では,編集プロンプトにアクセスすることなく,修正重みから直接編集対象エンティティを推定し,95%以上の精度を実現する方法を提案する。
- 参考スコア(独自算出の注目度): 5.260519479124422
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge editing methods (KEs) are a cost-effective way to update the factual content of large language models (LLMs), but they pose a dual-use risk. While KEs are beneficial for updating outdated or incorrect information, they can be exploited maliciously to implant misinformation or bias. In order to defend against these types of malicious manipulation, we need robust techniques that can reliably detect, interpret, and mitigate adversarial edits. This work investigates the traceability and reversibility of knowledge edits, focusing on the widely used Rank-One Model Editing (ROME) method. We first show that ROME introduces distinctive distributional patterns in the edited weight matrices, which can serve as effective signals for locating the edited weights. Second, we show that these altered weights can reliably be used to predict the edited factual relation, enabling partial reconstruction of the modified fact. Building on this, we propose a method to infer the edited object entity directly from the modified weights, without access to the editing prompt, achieving over 95% accuracy. Finally, we demonstrate that ROME edits can be reversed, recovering the model's original outputs with $\geq$ 80% accuracy. Our findings highlight the feasibility of detecting, tracing, and reversing edits based on the edited weights, offering a robust framework for safeguarding LLMs against adversarial manipulations.
- Abstract(参考訳): 知識編集手法(KEs)は、大規模言語モデル(LLMs)の事実を更新するコスト効率のよい方法であるが、両用リスクが生じる。
KEは時代遅れや誤った情報を更新する上で有益であるが、誤った情報や偏見を埋め込むために悪用されることがある。
このような悪意ある操作に対して防御するためには、敵の編集を確実に検出、解釈、緩和できる堅牢な技術が必要である。
本研究は,Ran-One Model Editing (ROME) 手法に着目し,知識編集のトレーサビリティと可逆性について考察する。
まず、ROMEが編集重量行列に特徴的な分布パターンを導入し、編集重量を測る効果的な信号として機能することを示す。
第2に,これらの修正された重みは,編集された事実関係を確実に予測し,修正された事実を部分的に再構築できることを示す。
そこで本研究では,修正重みから編集対象エンティティを直接推測する手法を提案し,編集プロンプトへのアクセスを行なわず,95%以上の精度を実現した。
最後に、ROME編集が反転可能であることを実証し、モデルのオリジナルの出力を$\geq$80%の精度で復元する。
本研究は,LLMを敵の操作から保護するための堅牢な枠組みとして,編集重みに基づく編集の検出,追跡,反転の実現可能性を強調した。
関連論文リスト
- K-Edit: Language Model Editing with Contextual Knowledge Awareness [71.73747181407323]
知識に基づくモデル編集は、大きな言語モデルの重みを正確に修正することを可能にする。
我々は、文脈的に一貫した知識編集を生成するための効果的なアプローチであるK-Editを提案する。
論文 参考訳(メタデータ) (2025-02-15T01:35:13Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。