論文の概要: Lifelong Sequential Knowledge Editing without Model Degradation
- arxiv url: http://arxiv.org/abs/2502.01636v1
- Date: Mon, 03 Feb 2025 18:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:46.244822
- Title: Lifelong Sequential Knowledge Editing without Model Degradation
- Title(参考訳): モデル劣化を伴わない生涯連続的知識編集
- Authors: Akshat Gupta, Phudish Prateepamornkul, Maochuan Lu, Ahmed Alaa, Thomas Hartvigsen, Gopala Anumanchipalli,
- Abstract要約: 位置対応知識編集手法が編集事実の過度な適合に繋がることを示す。
これらの手法を用いて連続的な知識編集を行うことで、編集行列のノルムが不均等に成長することを示す。
ENCORE - Early Stop and Norm-Constrained Robust knowledge Editing。
- 参考スコア(独自算出の注目度): 11.14177136208272
- License:
- Abstract: Prior work in parameter-modifying knowledge editing has shown that large-scale sequential editing leads to significant model degradation. In this paper, we study the reasons behind this and scale sequential knowledge editing to 10,000 sequential edits, while maintaining the downstream performance of the original model. We first show that locate-then-edit knowledge editing methods lead to overfitting on the edited facts. We also show that continuous knowledge editing using these methods leads to disproportionate growth in the norm of the edited matrix. We then provide a crucial insight into the inner workings of locate-then-edit methods. We show that norm-growth is a hidden trick employed by these methods that gives larger importance to the output activations produced from the edited layers. With this "importance hacking", the edited layers provide a much larger contributions to the model's output. To mitigate these issues, we present ENCORE - Early stopping and Norm-Constrained Robust knowledge Editing. ENCORE controls for overfitting and the disproportionate norm-growth to enable long-term sequential editing, where we are able to perform up to 10,000 sequential edits without loss of downstream performance. ENCORE is also 61% faster than MEMIT and 64% faster than AlphaEdit on Llama3-8B.
- Abstract(参考訳): パラメータ修正知識編集における以前の研究は、大規模なシーケンシャルな編集が大きなモデル劣化をもたらすことを示した。
本稿では,この背景にある理由を考察し,原モデルの下流性能を維持しつつ,シーケンシャルな知識編集を1万件のシーケンシャルな編集に拡張する。
まず、位置対応の知識編集手法が、編集された事実に過度に適合することを示す。
また,これらの手法を用いた連続的な知識編集が,編集行列のノルムに不均等な成長をもたらすことを示す。
次に、位置-then-editメソッドの内部動作に関する重要な洞察を提供する。
そこで本研究では,これらの手法を用いて,編集層から生成した出力の活性化をより重要視する手法として,ノルム成長を隠蔽する手法を提案する。
この"重要ハッキング"によって、編集されたレイヤは、モデルの出力に対してはるかに大きなコントリビューションを提供します。
これらの問題を緩和するために、ENCORE - Early Stop and Norm-Constrained Robust knowledge Editingを提案する。
ENCOREは、オーバーフィッティングと不均等なノルム成長をコントロールして、長時間のシーケンシャルな編集を可能にし、ダウンストリームのパフォーマンスを失うことなく、最大10,000のシーケンシャルな編集を実行できる。
ENCOREはMEMITより61%高速で、Llama3-8BのAlphaEditより64%高速である。
関連論文リスト
- AnyEdit: Edit Any Knowledge Encoded in Language Models [69.30638272162267]
大規模言語モデル(LLM)のための新しい自動回帰編集パラダイムであるAnyEditを提案する。
長い形式の知識を逐次チャンクに分解し、各チャンク内のキートークンを反復的に編集し、一貫性と正確な出力を保証する。
UnKEBench、AKEW、そして我々の長文の多様な知識のための新しいEditEverythingデータセットを含むベンチマークでは、強いベースラインを21.5%上回っている。
論文 参考訳(メタデータ) (2025-02-08T16:18:37Z) - Reasons and Solutions for the Decline in Model Performance after Editing [17.756172082400163]
本稿では,編集モデルの性能低下の原因を考察し,編集方法を最適化する。
編集モデルの性能は、主に編集対象とシーケンス長の多様性に左右される。
本稿では,編集モデルの性能向上のために,Dump for Sequence (D4S) 法を提案する。
論文 参考訳(メタデータ) (2024-10-31T11:49:44Z) - O-Edit: Orthogonal Subspace Editing for Language Model Sequential Editing [0.0]
大規模言語モデル(LLM)は、事前訓練中に知識を取得するが、時間が経つにつれて、この知識は誤りまたは時代遅れになり、訓練後に更新が必要になる。
このアルゴリズムは、各知識更新の方向をアルゴリズム化し、逐次更新間の干渉を最小限にし、新しい更新が無関係な知識に与える影響を減らす。
メインストリームのLCM上で数千の編集を行うことができ、既存のメソッドの4.2倍の性能向上を実現し、下流のタスクでモデルのパフォーマンスを効果的に保ち、パラメータのオーバーヘッドを最小限に抑えることができる。
論文 参考訳(メタデータ) (2024-10-15T10:16:45Z) - AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models [65.93240009586351]
大型言語モデル(LLM)は、しばしば誤った知識や時代遅れの知識による幻覚を示す。
パラメータに適用する前に、保存された知識のnull空間に摂動を投影する新しいソリューションであるAlphaEditを紹介する。
我々は,この予測が保存知識を問うと,後編集後のLLMの出力が変化しないことを理論的に証明する。
論文 参考訳(メタデータ) (2024-10-03T10:06:27Z) - Outdated Issue Aware Decoding for Reasoning Questions on Edited Knowledge [93.54427119091174]
本稿では,従来のISsueを意識した復号化手法を提案する。
元のモデルと編集されたモデルとの確率分布の差を捉える。
我々は、古くなった問題を緩和するために、編集されたモデルにおけるトークン予測の違いを増幅する。
論文 参考訳(メタデータ) (2024-06-05T03:00:15Z) - WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models [78.22291694903659]
大規模言語モデル(LLM)は、成長を続ける世界の事実に適合し、幻覚的応答を修正するために知識更新を必要とする。
更新された知識が記憶にどこに存在するかは、モデル編集の基本的な問題である。
記憶のギャップを埋めるためにWISEを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:35:52Z) - Rebuilding ROME : Resolving Model Collapse during Sequential Model Editing [2.569159339315845]
Rank-One Model Editing (ROME) の実装において,編集の無効化は不規則な成果であることを示す。
我々は、r-ROME と呼ばれるより安定した実装 ROME を提供し、r-ROME で大規模な逐次編集を行う場合、モデル崩壊はもはや観測されないことを示す。
論文 参考訳(メタデータ) (2024-03-11T21:33:05Z) - WilKE: Wise-Layer Knowledge Editor for Lifelong Knowledge Editing [19.357663224043534]
本研究は,生涯編集における知識編集による性能劣化を明らかにする。
Wise-Layer Knowledge Editor (WilKE) という知識編集手法を導入する。
WilKEは、言語モデルにおいて、異なるレイヤにわたる編集知識のパターンマッチング度に基づいて、編集層を選択する。
論文 参考訳(メタデータ) (2024-02-16T05:29:59Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。