論文の概要: MoE-Sieve: Routing-Guided LoRA for Efficient MoE Fine-Tuning
- arxiv url: http://arxiv.org/abs/2603.24044v1
- Date: Wed, 25 Mar 2026 07:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.196015
- Title: MoE-Sieve: Routing-Guided LoRA for Efficient MoE Fine-Tuning
- Title(参考訳): MoE-Sieve:効率的なMoEファインチューニングのためのルーティングガイド付きLoRA
- Authors: Andrea Manzoni,
- Abstract要約: MoE-SieveはLoRAファインチューニングのためのシンプルなルーティング誘導フレームワークである。
上位25%のルーティングされた専門家のみをチューニングすることは、完全なLoRAと競合し続けています。
また、専門家数と種間差異の非単調な関係も観察した。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard LoRA fine-tuning of Mixture-of-Experts (MoE) models applies adapters to every expert, yet our profiling shows that per-layer expert routing is highly skewed: a small subset of experts handles most tokens in each layer, while many others are rarely activated ("cold"). We propose MoE-Sieve, a simple routing-guided framework for LoRA fine-tuning, and pair it with a systematic profiling study of expert routing across architectures and tasks. The method is simple: profile routing counts on a small calibration set, select the top-k most-routed experts per layer, and apply LoRA only to those experts. Across two architecturally distinct MoE models and three diverse tasks, tuning only the top 25% routed experts per layer remains competitive with full LoRA, with mean differences within +/-1 percentage point across all conditions. This reduces LoRA trainable parameters by 70-73%, adapter checkpoint size by 71-73%, and wall-clock training time by up to 50%. We also observe a non-monotonic relationship between expert count and seed-to-seed variance, consistent with the hypothesis that adapting cold experts can introduce gradient noise without improving accuracy. Further ablations show that random expert selection at matched budget is about 2.5 percentage points worse, indicating that the routing signal matters, while greedy per-layer budget optimization does not improve over uniform top-k.
- Abstract(参考訳): 標準LoRAによるMixture-of-Experts(MoE)モデルの微調整は、すべての専門家にアダプタを適用するが、我々のプロファイリングは、レイヤーごとのエキスパートルーティングが高度に歪んでいることを示している。
本稿では,LoRAファインチューニングのためのシンプルなルーティング誘導フレームワークであるMoE-Sieveを提案する。
プロファイルのルーティングは、小さなキャリブレーションセットでカウントされ、各層あたりのトップkの最も汚いエキスパートを選択し、それらのエキスパートだけにLoRAを適用する。
アーキテクチャ的に異なる2つのMoEモデルと3つの多様なタスクに対して、各レイヤのトップ25%のルーティングされたエキスパートのみをチューニングすることは、完全なLoRAと競合し、すべての条件で平均的な違いが+/-1ポイントの範囲内にある。
これにより、LoRAトレーニング可能なパラメータを70-73%、アダプタチェックポイントサイズを71-73%、ウォールクロックトレーニング時間を50%削減できる。
また,専門家数と種間差異の非単調な関係を観察し,寒冷な専門家が精度を向上することなく勾配雑音を導入できるという仮説と一致した。
さらに、一致した予算におけるランダムな専門家の選択は2.5パーセントほど悪化しており、ルーティング信号が重要であることを示しているが、階層ごとの予算最適化は、一様のトップkよりも改善されていない。
関連論文リスト
- CoMoL: Efficient Mixture of LoRA Experts via Dynamic Core Space Merging [49.87105462292961]
Core Space Mixture of LoRA (bfCoMoL)は、専門家の多様性、パラメータ効率、きめ細かい適応を取り入れた新しいMoE-LoRAフレームワークである。
CoMoLは、複数のタスクで既存のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-28T09:40:11Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts [24.0422448103907]
LD-MoLEはLearningable Dynamic routing mechanism for Mixture of LoRA Expertsを提案する。
我々の設計では、異なる層で各トークンに対してアクティベートする専門家の数を適応的に決定できる。
提案手法は,優れた性能を実現するとともに,トークン依存型およびレイヤワイドのエキスパートアロケーションを学習する能力も示す。
論文 参考訳(メタデータ) (2025-09-30T02:38:10Z) - GuiLoMo: Allocating Expert Number and Rank for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors [29.157019630756654]
Low-Rank Adaptation (LoRA) は、計算コストを削減した大規模言語モデルを適応するための効率的な方法である。
GuiLoMoはきめ細かなレイヤーの専門家数とランク割り当て戦略である。
論文 参考訳(メタデータ) (2025-06-17T15:41:33Z) - LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing [17.171872354057694]
LoRA-Mixerはモジュール式で軽量なMoEフレームワークであり、LoRAの専門家を統合している。
私たちの中心となるイノベーションは、アテンションモジュールの入出力線形レイヤのプロジェクション行列をタスク固有のLoRA専門家に置き換えることです。
LoRA-Mixerは、GSM8K、HumanEval、MedQAといったデータセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-06-17T14:58:54Z) - AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality [31.830108790753172]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM)におけるトレーニング効率を向上させることで知られている。
近年の研究では、LoRAとMixture-of-Experts(MoE)を組み合わせることで、さまざまなタスクのパフォーマンス向上を目指している。
AlphaLoRAは理論上は原則的かつトレーニング不要な手法で、LoRAの専門家をさらなる冗長性に割り当てる。
論文 参考訳(メタデータ) (2024-10-14T00:43:02Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - SiRA: Sparse Mixture of Low Rank Adaptation [63.926732717719354]
我々は「スパース」計算を活用することの重要性について検討し、低ランクのスパース混合SiRAを提案する。
具体的には、各専門家が処理できるトークンの最大数を制限するキャパシティ制限付きの、トップ$k$のエキスパートルーティングを強制する。
論文 参考訳(メタデータ) (2023-11-15T18:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。