論文の概要: MEMoE: Enhancing Model Editing with Mixture of Experts Adaptors
- arxiv url: http://arxiv.org/abs/2405.19086v1
- Date: Wed, 29 May 2024 13:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:00:54.895672
- Title: MEMoE: Enhancing Model Editing with Mixture of Experts Adaptors
- Title(参考訳): MEMoE: エキスパートアダプタの混在によるモデル編集の強化
- Authors: Renzhi Wang, Piji Li,
- Abstract要約: MOMoEは、Mixture of Experts (MoE)アーキテクチャと知識アンカールーティング戦略を利用したモデル編集アダプタである。
MOMoEは、バイパスMOE構造を使って知識を更新し、元のパラメータは変更しない。
そして、知識アンカールーティングにより、類似した知識を必要とする入力が同じ専門家にルーティングされることが保証され、更新された知識の一般化が促進される。
- 参考スコア(独自算出の注目度): 30.831866499812925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model editing aims to efficiently alter the behavior of Large Language Models (LLMs) within a desired scope, while ensuring no adverse impact on other inputs. Recent years have witnessed various model editing methods been proposed. However, these methods either exhibit poor overall performance or struggle to strike a balance between generalization and locality. We propose MOMoE, a model editing adapter utilizing a Mixture of Experts (MoE) architecture with a knowledge anchor routing strategy. MOMoE updates knowledge using a bypass MoE structure, keeping the original parameters unchanged to preserve the general ability of LLMs. And, the knowledge anchor routing ensures that inputs requiring similar knowledge are routed to the same expert, thereby enhancing the generalization of the updated knowledge. Experimental results show the superiority of our approach over both batch editing and sequential batch editing tasks, exhibiting exceptional overall performance alongside outstanding balance between generalization and locality. Our code will be available.
- Abstract(参考訳): モデル編集は、望まれる範囲内で大きな言語モデル(LLM)の振る舞いを効率的に変更することを目的としている。
近年,様々なモデル編集手法が提案されている。
しかし、これらの手法は全体的な性能が劣っているか、一般化と局所性のバランスをとるのに苦労している。
そこで我々は,Mixture of Experts (MoE)アーキテクチャと知識アンカールーティング戦略を用いたモデル編集アダプタMOMOEを提案する。
MOMoEは、バイパスMOE構造を用いて知識を更新し、LLMの一般的な能力を維持するために元のパラメータを変更せずに保持する。
また、知識アンカールーティングにより、類似した知識を必要とする入力が同一の専門家にルーティングされることが保証され、更新された知識の一般化が促進される。
実験結果から,バッチ編集と逐次編集の両タスクに対するアプローチの優位性を示すとともに,一般化と局所性の両立に優れた総合的な性能を示した。
私たちのコードは利用可能です。
関連論文リスト
- Uncovering Overfitting in Large Language Model Editing [35.55260822503773]
編集対象に不均等に高い確率を割り当てる編集オーバーフィット現象を同定し,検討する。
本稿では,新たな知識を振り返って編集されたモデルをガイドするマルチステージ推論制約モジュールを導入する,Learning to Inference (LTI) と呼ばれる新しいプラグイン・アンド・プレイ戦略を提案する。
論文 参考訳(メタデータ) (2024-10-10T11:09:00Z) - Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。
モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。
文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文 参考訳(メタデータ) (2024-10-03T12:28:13Z) - Enhance Lifelong Model Editing with Continuous Data-Adapter Association [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
現在のアプローチでは、元のパラメータを凍結し、知識修正毎に新しいアダプタを割り当てることで、シーケンシャルな編集を管理している。
ELDER, textbfEnhancing textbfLifelong motextbfDel textbfEditing with mixtutextbfRe of Low-Rank Adapter (LoRA)を提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models [30.831866499812925]
大規模言語モデル(LLM)は、変化し続ける世界の事実をそのまま維持するために、継続的な知識更新を必要とする。
我々は、生涯モデル編集のための高度なMixture of Experts (MoE)アダプタLEMoEを紹介する。
論文 参考訳(メタデータ) (2024-06-28T16:17:41Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。