論文の概要: Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue
- arxiv url: http://arxiv.org/abs/2401.04700v4
- Date: Fri, 04 Oct 2024 20:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:00.478609
- Title: Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue
- Title(参考訳): モデル編集による大規模言語モデルの一般的な能力:救助の正規化
- Authors: Jia-Chen Gu, Hao-Xiang Xu, Jun-Yu Ma, Pan Lu, Zhen-Hua Ling, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: 大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
- 参考スコア(独自算出の注目度): 122.20016030723043
- License:
- Abstract: Model editing is a technique that edits the large language models (LLMs) with updated knowledge to alleviate hallucinations without resource-intensive retraining. While current model editing methods can effectively modify a model's behavior within a specific area of interest, they often overlook the potential unintended side effects on the general abilities of LLMs such as reasoning, natural language inference, and question answering. In this paper, we raise concerns that model editing's improvements on factuality may come at the cost of a significant degradation of the model's general abilities. We systematically analyze the side effects by evaluating four popular editing methods on three LLMs across eight representative tasks. Our extensive empirical experiments show that it is challenging for current editing methods to simultaneously improve factuality of LLMs and maintain their general abilities. Our analysis reveals that the side effects are caused by model editing altering the original model weights excessively, leading to overfitting to the edited facts. To mitigate this, a method named RECT is proposed to regularize the edit update weights by imposing constraints on their complexity based on the RElative Change in weighT. Evaluation results show that RECT can significantly mitigate the side effects of editing while still maintaining over 94% editing performance.
- Abstract(参考訳): モデル編集は、大きな言語モデル(LLM)を編集し、リソース集約的な再学習なしに幻覚を緩和する技術である。
現在のモデル編集手法は、特定の分野におけるモデルの振る舞いを効果的に修正することができるが、推論、自然言語推論、質問応答といったLCMの一般的な能力に対する意図しない副作用を見逃すことがしばしばある。
本稿では,モデル編集における事実性の改善が,モデルの汎用能力を著しく低下させる原因となるのではないか,という懸念を提起する。
本研究では,8つのタスクにまたがる3つのLSMに対して,4つの一般的な編集方法を評価することで,副作用を系統的に解析する。
広範囲にわたる実証実験の結果,現在の編集手法では,LLMの現実性を同時に改善し,その汎用性を維持することが困難であることが示唆された。
分析の結果, モデルの重みを過度に修正したモデル編集が, 編集事実に過度に適合していることが判明した。
これを軽減するために、relative Change in weighTに基づく複雑性の制約を課すことにより、修正更新重み付けを規則化するRECT法が提案されている。
評価の結果,RECTは編集性能を94%以上維持しながら編集の副作用を大幅に軽減できることがわかった。
関連論文リスト
- Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs? [61.68363765350178]
本稿では,モデル編集問題の標準的な定式化を批判し,モデル編集研究のための形式的テストベッドを提案する。
まず,(1) 問題の定義,(2) ベンチマークの開発,(3) LLM がそもそも編集可能な信念を持っていることを前提として,モデル編集における12のオープンな問題について述べる。
次に、Wikidataに基づくモデル編集のための半合成データセットを導入し、理想化されたベイズエージェントによって与えられるラベルに対する編集を評価する。
論文 参考訳(メタデータ) (2024-06-27T17:33:03Z) - Perturbation-Restrained Sequential Model Editing [33.51709226068619]
現在のモデル編集手法は、編集数が増加するにつれて、大きな言語モデル(LLM)の一般的な能力を損なう。
編集用上層部における摂動抑制フレームワーク(PRUNE)を提案する。
PRUNEは、シーケンシャルモデル編集において、編集性能を効果的に維持しながら、かなりの汎用性を維持できる。
論文 参考訳(メタデータ) (2024-05-27T04:40:56Z) - The Missing Piece in Model Editing: A Deep Dive into the Hidden Damage Brought By Model Editing [27.627105709896025]
大規模な言語モデルは、時代遅れまたは誤った情報の修正に不可欠である。
これらのモデルを編集すると、しばしば、隠れた空間におけるリップル効果と呼ばれる複雑な問題が発生する。
本稿では,モデルの適応とその後の編集の影響を定量的に評価する新しい評価手法を提案する。
さらに,このリップル効果を緩和するモデル編集法であるSelective Impact Revision(SIR)を導入する。
論文 参考訳(メタデータ) (2024-03-12T17:04:28Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Is it Possible to Edit Large Language Models Robustly? [60.36021686516329]
大型言語モデル(LLM)は、人間の振る舞いを模倣するコミュニケーションAIを構築する上で重要な役割を担っている。
近年の研究では、言語モデルの特定の記憶を操作し、関連する言語生成を変更するモデル編集の領域を掘り下げている。
この研究は、編集方法の強みと限界を理解し、コミュニケーションAIの堅牢で現実的な応用を促進する。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.569159339315845]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。
モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文 参考訳(メタデータ) (2024-01-15T03:57:15Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - Edit at your own risk: evaluating the robustness of edited models to
distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。
編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。
これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2023-02-28T19:41:37Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。