論文の概要: MoEEdit: Efficient and Routing-Stable Knowledge Editing for Mixture-of-Experts LLMs
- arxiv url: http://arxiv.org/abs/2602.10965v1
- Date: Wed, 11 Feb 2026 15:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.083176
- Title: MoEEdit: Efficient and Routing-Stable Knowledge Editing for Mixture-of-Experts LLMs
- Title(参考訳): MoEEdit:Mixture-of-Experts LLMのための効率的かつルーティング可能な知識編集
- Authors: Yupu Gu, Rongzhe Wei, Andy Zhu, Pan Li,
- Abstract要約: MoEEditは、大規模言語モデルにおけるパラメータ修飾知識編集のためのルーティング安定フレームワークである。
MoEEditは,高特異性とルーティング安定性を保ちながら,最先端の有効性と一般化を実現する。
- 参考スコア(独自算出の注目度): 8.074300009866548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge editing (KE) enables precise modifications to factual content in large language models (LLMs). Existing KE methods are largely designed for dense architectures, limiting their applicability to the increasingly prevalent sparse Mixture-of-Experts (MoE) models that underpin modern scalable LLMs. Although MoEs offer strong efficiency and capacity scaling, naively adapting dense-model editors is both computationally costly and prone to routing distribution shifts that undermine stability and consistency. To address these challenges, we introduce MoEEdit, the first routing-stable framework for parameter-modifying knowledge editing in MoE LLMs. Our method reparameterizes expert updates via per-expert null-space projections that keep router inputs invariant and thereby suppress routing shifts. The resulting block-structured optimization is solved efficiently with a block coordinate descent (BCD) solver. Experiments show that MoEEdit attains state-of-the-art efficacy and generalization while preserving high specificity and routing stability, with superior compute and memory efficiency. These results establish a robust foundation for scalable, precise knowledge editing in sparse LLMs and underscore the importance of routing-stable interventions.
- Abstract(参考訳): 知識編集(KE)は、大規模言語モデル(LLM)における事実内容の正確な修正を可能にする。
既存のKE手法は主に密集型アーキテクチャ向けに設計されており、現代のスケーラブルなLCMを支える、より広く普及するスパース・ミクチャー・オブ・エクスプット(MoE)モデルにその適用性を制限する。
MoEは高い効率性とキャパシティのスケーリングを提供するが、高密度なモデルエディターは計算コストがかかり、安定性と一貫性を損なう分散シフトをルーティングする傾向がある。
これらの課題に対処するため,MoE LLMにおけるパラメータ修飾知識編集のための最初のルーティング安定フレームワークであるMoEEditを紹介した。
提案手法は,ルータ入力の不変性を保ち,ルーティングシフトを抑えるために,専門家ごとのヌルスペースプロジェクションを用いて専門家の更新をパラメータ化する。
結果のブロック構造最適化をブロック座標降下(BCD)解決器で効率的に解く。
実験により、MoEEditは高い特異性とルーティング安定性を保ちながら、最先端の有効性と一般化を実現し、計算効率とメモリ効率が優れていることが示された。
これらの結果は,分散LLMにおけるスケーラブルで高精度な知識編集のための堅牢な基盤を確立し,ルーティング安定な介入の重要性を浮き彫りにした。
関連論文リスト
- Generalizable Multimodal Large Language Model Editing via Invariant Trajectory Learning [46.514554089834554]
既存の編集方法は、パラメータやモジュールの変更から出力への厳密なマッピングに依存している。
本稿では,MLLM編集をアウト・オブ・ディストリビューション(OOD)の一般化問題として再検討する。
我々は,編集の信頼性,局所性,汎用性を高めるための,プラグアンドプレイ不変学習ベースのフレームワークODEditを提案する。
論文 参考訳(メタデータ) (2026-01-27T15:25:07Z) - Representation Interventions Enable Lifelong Unstructured Knowledge Control [54.86207134539453]
大規模言語モデル(LLM)は、しばしば誤った、または時代遅れのコンテンツを生成します。その知識を効率的に正確に更新し、コストのかかる再トレーニングなしにするというのは、大きな課題です。
本稿では,モデル表現空間内の介入として知識制御を扱う,堅牢でスケーラブルな手法であるRILKEを紹介する。
トレーニング中、RILKEはパラフレーズロバストと編集局所化モジュールを学び、低次元のサブスペースへの更新を制限し、クロスディジット干渉を最小限に抑える。
推論において、クエリ適応ルータは、モデル生成をガイドする適切なモジュールを選択する。
論文 参考訳(メタデータ) (2025-11-25T22:15:00Z) - EMSEdit: Efficient Multi-Step Meta-Learning-based Model Editing [20.6706431279733]
EMSEditはメタラーニングベースのモデル編集の軽量な代替品である。
EMSEditは、シーケンシャルおよびバッチ編集の両方において、最先端のメソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-06T01:54:58Z) - InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [86.17245523439514]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。
この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。
編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:20:18Z) - EAMET: Robust Massive Model Editing via Embedding Alignment Optimization [12.022506016268112]
本稿では,知識項目間の組込み誤りに対処するため,EAMET (Embedding Alignment Model Editing in Transformers)を提案する。
実験の結果、EAMETは既存の手法を一貫して上回り、10kの事実を編集する際に約90%の編集効率を達成することがわかった。
論文 参考訳(メタデータ) (2025-05-17T07:00:02Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。