論文の概要: MEMoE: Enhancing Model Editing with Mixture of Experts Adaptors
- arxiv url: http://arxiv.org/abs/2405.19086v2
- Date: Sun, 2 Jun 2024 02:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 13:50:03.100359
- Title: MEMoE: Enhancing Model Editing with Mixture of Experts Adaptors
- Title(参考訳): MEMoE: エキスパートアダプタの混在によるモデル編集の強化
- Authors: Renzhi Wang, Piji Li,
- Abstract要約: MEMoEは、Mixture of Experts (MoE)アーキテクチャと知識アンカールーティング戦略を利用したモデル編集アダプタである。
バッチ編集とシーケンシャルなバッチ編集の両方よりも,我々のアプローチの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 30.831866499812925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model editing aims to efficiently alter the behavior of Large Language Models (LLMs) within a desired scope, while ensuring no adverse impact on other inputs. Recent years have witnessed various model editing methods been proposed. However, these methods either exhibit poor overall performance or struggle to strike a balance between generalization and locality. We propose MEMoE, a model editing adapter utilizing a Mixture of Experts (MoE) architecture with a knowledge anchor routing strategy. MEMoE updates knowledge using a bypass MoE structure, keeping the original parameters unchanged to preserve the general ability of LLMs. And, the knowledge anchor routing ensures that inputs requiring similar knowledge are routed to the same expert, thereby enhancing the generalization of the updated knowledge. Experimental results show the superiority of our approach over both batch editing and sequential batch editing tasks, exhibiting exceptional overall performance alongside outstanding balance between generalization and locality. Our code will be available.
- Abstract(参考訳): モデル編集は、望まれる範囲内で大きな言語モデル(LLM)の振る舞いを効率的に変更することを目的としている。
近年,様々なモデル編集手法が提案されている。
しかし、これらの手法は全体的な性能が劣っているか、一般化と局所性のバランスをとるのに苦労している。
本稿では,Mixture of Experts (MoE)アーキテクチャと知識アンカールーティング戦略を用いたモデル編集アダプタMEMoEを提案する。
MEMoEはバイパスMOE構造を用いて知識を更新し、LLMの一般的な能力を維持するために元のパラメータを変更せずに保持する。
また、知識アンカールーティングにより、類似した知識を必要とする入力が同一の専門家にルーティングされることが保証され、更新された知識の一般化が促進される。
実験結果から,バッチ編集と逐次編集の両タスクに対するアプローチの優位性を示すとともに,一般化と局所性の両立に優れた総合的な性能を示した。
私たちのコードは利用可能です。
関連論文リスト
- Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
そこで本研究では,モデルパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
本手法は,Mixtral-8x7BとMixtral-8x22Bの2種類のMoEモデルを用いて評価を行った。
本手法は,様々な自然言語タスクにおいて,他のモデルプルーニング手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models [30.831866499812925]
大規模言語モデル(LLM)は、変化し続ける世界の事実をそのまま維持するために、継続的な知識更新を必要とする。
我々は、生涯モデル編集のための高度なMixture of Experts (MoE)アダプタLEMoEを紹介する。
論文 参考訳(メタデータ) (2024-06-28T16:17:41Z) - InstructEdit: Instruction-based Knowledge Editing for Large Language Models [39.2147118489123]
InstructEditと呼ばれる命令ベースの編集技術を開発し、簡単な命令を使って様々なタスクパフォーマンスへのエディタの適応を容易にする。
予期せぬタスクを含む実験は、InstructEditが以前の強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-25T15:46:33Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
モデル編集は、大きな言語モデル(LLM)を編集し、リソース集約的な再学習なしに幻覚を緩和する技術である。
現在のモデル編集方法は、特定の領域におけるモデルの振る舞いを効果的に修正することができる。
彼らはしばしば、LLMの一般的な能力に対する意図しない副作用の可能性を見落としている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。