論文の概要: LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts
- arxiv url: http://arxiv.org/abs/2509.25684v1
- Date: Tue, 30 Sep 2025 02:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.396738
- Title: LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts
- Title(参考訳): LD-Mole:LoRAエキスパートの混合のための学習可能な動的ルーティング
- Authors: Yuan Zhuang, Yi Shen, Yuexin Bian, Qing Su, Shihao Ji, Yuanyuan Shi, Fei Miao,
- Abstract要約: LD-MoLEはLearningable Dynamic routing mechanism for Mixture of LoRA Expertsを提案する。
我々の設計では、異なる層で各トークンに対してアクティベートする専門家の数を適応的に決定できる。
提案手法は,優れた性能を実現するとともに,トークン依存型およびレイヤワイドのエキスパートアロケーションを学習する能力も示す。
- 参考スコア(独自算出の注目度): 24.0422448103907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that combining parameter-efficient fine-tuning (PEFT) with mixture-of-experts (MoE) is an effective strategy for adapting large language models (LLMs) to the downstream tasks. However, most existing approaches rely on conventional TopK routing, which requires careful hyperparameter tuning and assigns a fixed number of experts to each token. In this work, we propose LD-MoLE, a Learnable Dynamic routing mechanism for Mixture of LoRA Experts that enables adaptive, token-dependent, and layer-wise expert allocation. Our method replaces the non-differentiable TopK selection with a differentiable routing function and a closed-form solution. Moreover, our design allows the model to adaptively determine the number of experts to activate for each token at different layers. In addition, we introduce an analytical sparsity control objective to regularize the number of activated experts. Extensive experiments on the Qwen3-1.7B and Llama-3.2-3B models show that LD-MoLE achieves the highest average scores compared to state-of-the-art baselines, across a diverse set of benchmarks. Our method not only achieves superior performance, but also demonstrates the ability to learn token-dependent and layer-wise expert allocation.
- Abstract(参考訳): 近年の研究では、パラメータ効率のよい微調整(PEFT)とMix of-Experts(MoE)を組み合わせることが、大規模言語モデル(LLM)を下流タスクに適用するための効果的な戦略であることが示されている。
しかし、既存のほとんどのアプローチは従来のTopKルーティングに依存しており、注意深いハイパーパラメータチューニングを必要とし、各トークンに一定の数の専門家を割り当てる。
本研究では,Learningable Dynamic routing mechanism for Mixture of LoRA Expertsを用いて,適応型,トークン依存型,レイヤワイドなエキスパートアロケーションを実現するLD-MoLEを提案する。
本手法は、微分不可能なTopK選択を、微分可能ルーティング関数と閉形式解に置き換える。
さらに,本設計では,各トークンを異なる層でアクティベートする専門家の数を適応的に決定できる。
また,アクティベートした専門家の数を正規化するために,分析的疎度制御の目的を導入する。
Qwen3-1.7B と Llama-3.2-3B の大規模な実験により、LD-MoLE は最先端のベースラインよりも高い平均スコアを達成している。
提案手法は,優れた性能を達成するだけでなく,トークンに依存した,階層的な専門家アロケーションを学習する能力も示す。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - ExpertSteer: Intervening in LLMs through Expert Knowledge [86.98098988779809]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。
まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。
これらの知見に触発されて、直交混合(OMoE)を提案する。
提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文 参考訳(メタデータ) (2025-01-17T09:27:08Z) - AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts [0.0]
本稿では,Lank Adaptation ExpertsのAdaptive Mixtureを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは専用のしきい値ネットワークを使用してアクティベーション閾値を動的に調整し、異なるタスクの複雑さに応じて適応的に応答する。
論文 参考訳(メタデータ) (2024-05-01T07:33:43Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Higher Layers Need More LoRA Experts [23.72297945365351]
トランスフォーマーモデルのための新しいパラメータ効率MoE法であるtextittextbfMoE-LtextbfoRA と textbfLayer-wise Expert textbfAllocation (MoLA) を導入する。
6つのよく知られたNLPおよびCommonsense QAベンチマークの実験は、MoLAがすべてのベースラインと同等または優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-02-13T16:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。