Fugu-MT 論文翻訳(概要): ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA

論文の概要: ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA

arxiv url: http://arxiv.org/abs/2408.11869v3
Date: Tue, 14 Jan 2025 04:25:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.170944
Title: ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA
Title（参考訳）: ELDER:Mixture-of-LoRAによる生涯モデル編集の強化
Authors: Jiaang Li, Quan Wang, Zhongnan Wang, Yongdong Zhang, Zhendong Mao,
Abstract要約: 大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
参考スコア（独自算出の注目度）: 55.697627106315004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) require model editing to efficiently update specific knowledge within them and avoid factual errors. Most model editing methods are solely designed for single-time use and result in a significant forgetting effect in lifelong editing scenarios, where sequential edits are conducted over time. Previous approaches manage sequential edits by freezing original parameters and discretely allocating new parameters for each knowledge update. However, these methods lack robustness to minor input variations due to the discrete mapping between data and parameters. To overcome this challenge, we propose ELDER, a novel approach to create a continuous association between data and adapters. ELDER integrates multiple LoRAs through a router network and is trained to establish a smooth data-adapter association, thereby enhancing the edit robustness and generalization of semantically equivalent inputs. To ensure inputs containing the same knowledge will be processed by the same LoRAs, we design a novel loss to guide the model link LoRA allocations with edit knowledge. Furthermore, we propose a deferral mechanism to retain the original LLM capabilities post-edit. Extensive experiments on GPT-2 XL and LLaMA2-7B demonstrate that ELDER effectively edits models in the lifelong setting, outperforming eight baselines while exhibiting strong scalability and preserving LLMs' general abilities on downstream tasks. Our code is available at https://github.com/JiaangL/ELDER.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。ほとんどのモデル編集手法は、単に単一時間の使用用に設計されており、連続的な編集が時間とともに行われる生涯編集のシナリオにおいて、大きな忘れ効果をもたらす。以前のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理していた。しかし、これらの手法は、データとパラメータ間の離散的なマッピングにより、小さな入力のばらつきに頑健さを欠いている。この課題を克服するために,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。 ELDERはルータネットワークを介して複数のLoRAを統合し、スムーズなデータ・アダプタ・アソシエーションを確立するために訓練される。同じ知識を含む入力が同じLoRAによって処理されることを保証するため、我々はLoRAアロケーションを編集知識とリンクする新しい損失を設計する。さらに,従来のLLM機能を後処理で保持するための遅延機構を提案する。 GPT-2 XL と LLaMA2-7B の大規模な実験により、ELDER は長寿命環境でのモデルを効果的に編集し、8つのベースラインを上回り、強力なスケーラビリティを示し、下流タスクにおける LLM の一般的な能力を保っていることが示された。私たちのコードはhttps://github.com/JiaangL/ELDER.comで公開されています。

関連論文リスト

Representation Interventions Enable Lifelong Unstructured Knowledge Control [54.86207134539453]
大規模言語モデル(LLM)は、しばしば誤った、または時代遅れのコンテンツを生成します。その知識を効率的に正確に更新し、コストのかかる再トレーニングなしにするというのは、大きな課題です。本稿では,モデル表現空間内の介入として知識制御を扱う,堅牢でスケーラブルな手法であるRILKEを紹介する。トレーニング中、RILKEはパラフレーズロバストと編集局所化モジュールを学び、低次元のサブスペースへの更新を制限し、クロスディジット干渉を最小限に抑える。推論において、クエリ適応ルータは、モデル生成をガイドする適切なモジュールを選択する。
論文参考訳（メタデータ） (2025-11-25T22:15:00Z)
Model Merging for Knowledge Editing [53.799891745131724]
大規模言語モデル(LLM)は、世界が進化するにつれて正確で現在の知識を維持するために継続的な更新を必要とする。既存の知識編集アプローチは知識更新のための様々なソリューションを提供するが、しばしば連続的な編集シナリオに苦労する。本稿では,頑健な教師付き微調整(R-SFT)とモデルマージを組み合わせた2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-14T07:42:39Z)
MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [82.34547399693966]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。残メモリを介して知識を注入する新しいスケーラブルなフレームワークであるMEMOIRを提案する。 MeMOIRは各編集をメモリパラメータの別のサブセットに限定し、編集間の干渉を最小限にする。
論文参考訳（メタデータ） (2025-06-09T16:16:42Z)
InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文参考訳（メタデータ） (2025-05-28T09:20:18Z)
UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models [18.23723680134397]
生涯学習は、内部知識を継続的に更新することによって、大きな言語モデルが進化する情報に適応することを可能にする。モデル編集は、モデルの内部知識を更新するための集中的で効率的な方法を提供する、この目標のための有望なソリューションとして際立っている。 UltraEditはトレーニング用、主題用、メモリ不要で、超スケーラブルで現実世界の生涯モデル編集に適しています。
論文参考訳（メタデータ） (2025-05-20T17:59:04Z)
MindBridge: Scalable and Cross-Model Knowledge Editing via Memory-Augmented Modality [55.01380617388064]
既存のほとんどのメソッドは特定のモデルに過度に適合し、更新毎に編集済みの知識を破棄する。マルチモーダルモデルにおけるモダリティ処理とLLMの低結合に着想を得た,スケーラブルなソリューションであるMindBridgeを紹介する。 MindBridgeは数万の知識エントリを編集しても優れたパフォーマンスを実現し、異なるLLMに柔軟に対応できる。
論文参考訳（メタデータ） (2025-03-04T15:17:57Z)
Constraining Sequential Model Editing with Editing Anchor Compression [40.93064933191375]
大型言語モデル(LLM)は、誤った知識や時代遅れの知識によって幻覚に苦しむ。本稿では, 編集後のパラメータ行列が, 編集数の増加に伴って, 以前の状態と大きくずれていることを統計的に観察する。逐次的編集におけるパラメータ行列の偏差を抑制するため,EAC (Editing Anchor Compression) というフレームワークが提案されている。
論文参考訳（メタデータ） (2025-02-25T03:56:49Z)
Reinforced Lifelong Editing for Language Models [12.101856766731574]
大規模言語モデル(LLM)は、事前学習したコーパスから情報を取得するが、その記憶された知識は、時間とともに不正確になるか、時代遅れになる可能性がある。モデル編集は、リトレーニングなしでモデルパラメータを変更することでこの課題に対処する。本稿では,RLに基づく編集手法であるRLEditを提案する。
論文参考訳（メタデータ） (2025-02-09T03:37:06Z)
O-Edit: Orthogonal Subspace Editing for Language Model Sequential Editing [0.0]
大規模言語モデル(LLM)は、事前訓練中に知識を取得するが、時間が経つにつれて、この知識は誤りまたは時代遅れになり、訓練後に更新が必要になる。このアルゴリズムは、各知識更新の方向をアルゴリズム化し、逐次更新間の干渉を最小限にし、新しい更新が無関係な知識に与える影響を減らす。メインストリームのLCM上で数千の編集を行うことができ、既存のメソッドの4.2倍の性能向上を実現し、下流のタスクでモデルのパフォーマンスを効果的に保ち、パラメータのオーバーヘッドを最小限に抑えることができる。
論文参考訳（メタデータ） (2024-10-15T10:16:45Z)
Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文参考訳（メタデータ） (2024-10-03T12:28:13Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning [55.384428765798496]
新しいデータは、Eコマースプラットフォームレビューのような、長期にわたる流通を示す。これは、忘れずに不均衡なデータを連続的なモデルで学習する必要がある。 LTCILの例として,AdaPtive Adapter Routing (APART) を提案する。
論文参考訳（メタデータ） (2024-09-11T17:52:00Z)
LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models [30.831866499812925]
大規模言語モデル(LLM)は、変化し続ける世界の事実をそのまま維持するために、継続的な知識更新を必要とする。我々は、生涯モデル編集のための高度なMixture of Experts (MoE)アダプタLEMoEを紹介する。
論文参考訳（メタデータ） (2024-06-28T16:17:41Z)
DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models [32.598670876662375]
動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するように設計されている。 DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-05-31T02:56:49Z)
Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。 LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。 LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文参考訳（メタデータ） (2024-02-19T07:45:17Z)
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文参考訳（メタデータ） (2024-02-15T01:50:38Z)
SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文参考訳（メタデータ） (2024-01-31T13:08:45Z)
MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA [34.21194537887934]
ニューロンインデクシング動的LoRA(MELO)に基づくプラグインモデル編集手法を提案する。提案するMELOは,3つの逐次編集タスクにおける最先端の編集性能を実現する。
論文参考訳（メタデータ） (2023-12-19T02:11:01Z)
Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文参考訳（メタデータ） (2023-11-08T13:03:06Z)
Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。 GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。 T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文参考訳（メタデータ） (2022-11-20T17:18:22Z)
Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。 SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。 SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文参考訳（メタデータ） (2022-06-13T23:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。