論文の概要: Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization
- arxiv url: http://arxiv.org/abs/2410.02433v1
- Date: Thu, 3 Oct 2024 12:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:20:51.329101
- Title: Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization
- Title(参考訳): より優れたコールSAUL: 生成規則化によるフルーレントで一貫性のある言語モデル編集
- Authors: Mingyang Wang, Lukas Lange, Heike Adel, Jannik Strötgen, Hinrich Schütze,
- Abstract要約: 大規模な言語モデルは定期的に更新する必要がある。
モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。
文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
- 参考スコア(独自算出の注目度): 48.07144492109635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To ensure large language models contain up-to-date knowledge, they need to be updated regularly. However, model editing is challenging as it might also affect knowledge that is unrelated to the new data. State-of-the-art methods identify parameters associated with specific knowledge and then modify them via direct weight updates. However, these locate-and-edit methods suffer from heavy computational overhead and lack theoretical validation. In contrast, directly fine-tuning the model on requested edits affects the model's behavior on unrelated knowledge, and significantly damages the model's generation fluency and consistency. To address these challenges, we propose SAUL, a streamlined model editing method that uses sentence concatenation with augmented random facts for generation regularization. Evaluations on three model editing benchmarks show that SAUL is a practical and reliable solution for model editing outperforming state-of-the-art methods while maintaining generation quality and reducing computational overhead.
- Abstract(参考訳): 大きな言語モデルに最新の知識が含まれていることを保証するためには、定期的に更新する必要がある。
しかし、新しいデータとは無関係な知識にも影響する可能性があるため、モデル編集は困難である。
State-of-the-artメソッドは特定の知識に関連するパラメータを特定し、直接重み付けによって修正する。
しかし、これらの位置と編集法は計算オーバーヘッドが重く、理論的検証に欠ける。
対照的に、要求された編集をモデルに直接微調整することは、無関係な知識に対するモデルの振舞いに影響し、モデルの生成頻度と一貫性を著しく損なう。
これらの課題に対処するために,文結合と拡張ランダムな事実を結合して生成規則化を行うモデル編集手法であるSAULを提案する。
3つのモデル編集ベンチマークの評価から,SAULは生成品質を保ち,計算オーバーヘッドを低減しつつ,最先端の手法より優れたモデル編集を行うための実用的で信頼性の高いソリューションであることが示された。
関連論文リスト
- Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.63231238452797]
既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。
インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。
その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
論文 参考訳(メタデータ) (2024-10-24T14:36:48Z) - Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-10-05T05:52:22Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - History Matters: Temporal Knowledge Editing in Large Language Model [42.74144542674756]
本稿では,時間的知識編集(TKE)の課題を紹介し,現在のモデル編集手法を評価するためのベンチマークATOKeを確立する。
既存のモデル編集手法は、モデルに新しい知識を記憶させるのに有効であるが、編集されたモデルは歴史的知識を破滅的に忘れてしまう。
このギャップに対処するため,既存の編集モデルを改善するためのMulti-Editing with Time Objective (METO) という,シンプルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-09T07:51:56Z) - Edit at your own risk: evaluating the robustness of edited models to
distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。
編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。
これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2023-02-28T19:41:37Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。