論文の概要: Enhance Lifelong Model Editing with Continuous Data-Adapter Association
- arxiv url: http://arxiv.org/abs/2408.11869v1
- Date: Mon, 19 Aug 2024 02:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:26:17.283669
- Title: Enhance Lifelong Model Editing with Continuous Data-Adapter Association
- Title(参考訳): 連続データアダプタアソシエーションによる生涯モデル編集
- Authors: Jiaang Li, Quan Wang, Zhongnan Wang, Yongdong Zhang, Zhendong Mao,
- Abstract要約: 大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
現在のアプローチでは、元のパラメータを凍結し、知識修正毎に新しいアダプタを割り当てることで、シーケンシャルな編集を管理している。
ELDER, textbfEnhancing textbfLifelong motextbfDel textbfEditing with mixtutextbfRe of Low-Rank Adapter (LoRA)を提案する。
- 参考スコア(独自算出の注目度): 55.697627106315004
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) require model editing to efficiently update specific knowledge within them and avoid factual errors. Most model editing methods are solely designed for single-time use and lead to a significant forgetting effect after sequential edits over time, referred to as lifelong editing. Current approaches manage sequential edits by freezing original parameters and allocating new adapters for each knowledge modification. However, these methods lack robustness to minor input variations. To address this challenge, we propose ELDER, \textbf{E}nhancing \textbf{L}ifelong mo\textbf{D}el \textbf{E}diting with mixtu\textbf{R}e of Low-Rank Adapter (LoRA). ELDER is an adaptive approach that integrates multiple LoRAs through a router network. It learns to create a continuous and smooth association between data and adapters, thereby enhancing robustness and generalization to semantically equivalent inputs. Additionally, we introduce a novel loss to help learn associations between adapter allocations and edit semantics. A deferral mechanism is also proposed to retain the original LLM capabilities post-edit. Extensive experiments on GPT-2 XL and LLaMA2-7B demonstrate that ELDER effectively edits models in the lifelong setting and exhibits strong scalability, while retaining LLM's general abilities on downstream tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
ほとんどのモデル編集法は、単に単一時間の使用用に設計されており、ライフロング編集と呼ばれる連続的な編集を経た後に大きな忘れ効果をもたらす。
現在のアプローチでは、元のパラメータを凍結し、知識修正毎に新しいアダプタを割り当てることで、シーケンシャルな編集を管理している。
しかし、これらの手法は小さな入力のバリエーションに頑健さを欠いている。
この課題に対処するため,ローランドアダプタ (LoRA) のmixtu\textbf{R}e を用いた ELDER, \textbf{E}nhancing \textbf{L}ifelong mo\textbf{D}el \textbf{E}diting を提案する。
ELDERは、ルータネットワークを介して複数のLoRAを統合する適応的なアプローチである。
データとアダプタの連続的かつ円滑な関連を作ることを学び、それによって、意味論的に等価な入力に対する堅牢性と一般化が強化される。
さらに,アダプタのアロケーションとセマンティクスの関連を学習するための新たな損失を導入する。
遅延機構は、元のLLM機能を後処理で維持するためにも提案されている。
GPT-2 XL と LLaMA2-7B の広範囲にわたる実験により、ELDER は、下流タスクにおける LLM の一般的な能力を保ちながら、寿命の長い設定でモデルを効果的に編集し、強力なスケーラビリティを示すことを示した。
関連論文リスト
- Reinforced Lifelong Editing for Language Models [12.101856766731574]
大規模言語モデル(LLM)は、事前学習したコーパスから情報を取得するが、その記憶された知識は、時間とともに不正確になるか、時代遅れになる可能性がある。
モデル編集は、リトレーニングなしでモデルパラメータを変更することでこの課題に対処する。
本稿では,RLに基づく編集手法であるRLEditを提案する。
論文 参考訳(メタデータ) (2025-02-09T03:37:06Z) - Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-10-05T05:52:22Z) - Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。
モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。
文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文 参考訳(メタデータ) (2024-10-03T12:28:13Z) - DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models [32.598670876662375]
動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するように設計されている。
DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-31T02:56:49Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA [34.21194537887934]
ニューロンインデクシング動的LoRA(MELO)に基づくプラグインモデル編集手法を提案する。
提案するMELOは,3つの逐次編集タスクにおける最先端の編集性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T02:11:01Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。