論文の概要: DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism
- arxiv url: http://arxiv.org/abs/2504.00661v1
- Date: Tue, 01 Apr 2025 11:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:08.456115
- Title: DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism
- Title(参考訳): DynMole: ハイブリッドルーティング機構によるLoRAエキスパートの微調整
- Authors: Dengchun Li, Naizheng Wang, Zihao Zhang, Haoyang Yin, Lei Duan, Meng Xiao, Mingjie Tang,
- Abstract要約: DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 5.988126768890861
- License:
- Abstract: Instruction-based fine-tuning of large language models (LLMs) has achieved remarkable success in various natural language processing (NLP) tasks. Parameter-efficient fine-tuning (PEFT) methods, such as Mixture of LoRA Experts (MoLE), combine the efficiency of Low-Rank Adaptation (LoRA) with the versatility of Mixture of Experts (MoE) models, demonstrating significant potential for handling multiple downstream tasks. However, the existing routing mechanisms for MoLE often involve a trade-off between computational efficiency and predictive accuracy, and they fail to fully address the diverse expert selection demands across different transformer layers. In this work, we propose DynMoLE, a hybrid routing strategy that dynamically adjusts expert selection based on the Tsallis entropy of the router's probability distribution. This approach mitigates router uncertainty, enhances stability, and promotes more equitable expert participation, leading to faster convergence and improved model performance. Additionally, we introduce an auxiliary loss based on Tsallis entropy to further guide the model toward convergence with reduced uncertainty, thereby improving training stability and performance. Our extensive experiments on commonsense reasoning benchmarks demonstrate that DynMoLE achieves substantial performance improvements, outperforming LoRA by 9.6% and surpassing the state-of-the-art MoLE method, MoLA, by 2.3%. We also conduct a comprehensive ablation study to evaluate the contributions of DynMoLE's key components.
- Abstract(参考訳): 大規模言語モデル(LLM)のインストラクションに基づく微調整は,様々な自然言語処理(NLP)タスクにおいて顕著な成功を収めた。
ロラエキスパートの混合(MoLE)のようなパラメータ効率のよい微調整(PEFT)手法は、ローランド適応(LoRA)の効率と混合専門家(MoE)モデルの汎用性を組み合わせ、複数の下流タスクを扱う大きな可能性を示す。
しかし、既存のMoLEのルーティング機構は計算効率と予測精度のトレードオフを伴うことが多く、異なるトランスフォーマー層にわたる多様な専門家の選択要求に完全に対処することができない。
本研究では、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略DynMoLEを提案する。
このアプローチは、ルータの不確実性を緩和し、安定性を高め、より公平な専門家参加を促進し、より早く収束し、モデル性能を向上させる。
さらに、Tsallisエントロピーに基づく補助損失を導入し、不確実性を低減し、モデルの収束をさらに誘導し、トレーニング安定性と性能を向上させる。
我々は、DynMoLEがLoRAを9.6%上回り、最先端のMoLE法であるMoLAを2.3%上回るパフォーマンス向上を実現していることを示す。
また,DynMoLEの主要成分の寄与を評価するため,包括的アブレーション研究を行った。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Learn A Flexible Exploration Model for Parameterized Action Markov Decision Processes [8.588866536242145]
モデルベース(MBRL)アルゴリズムであるFLEXploreを提案し,エージェントの学習効率と性能を向上させる。
FLEXploreは他のベースラインと比較して学習効率と性能が優れていることを示す。
論文 参考訳(メタデータ) (2025-01-06T05:33:09Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - SLIM: Let LLM Learn More and Forget Less with Soft LoRA and Identity Mixture [7.543093479330315]
下流タスクのためのモデル全体のトレーニングは費用がかかるため、破滅的な忘れ忘れをしがちです。
我々は,Soft LoRA と Identity Mixture (SLIM) をベースとした,新たな専門家(MoE) フレームワークを提案する。
SLIMはLoRAアダプタとスキップ接続間の動的ルーティングを可能にし、忘れの抑制を可能にする。
論文 参考訳(メタデータ) (2024-10-10T09:16:05Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts [0.0]
本稿では,Lank Adaptation ExpertsのAdaptive Mixtureを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは専用のしきい値ネットワークを使用してアクティベーション閾値を動的に調整し、異なるタスクの複雑さに応じて適応的に応答する。
論文 参考訳(メタデータ) (2024-05-01T07:33:43Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - MoELoRA: Contrastive Learning Guided Mixture of Experts on
Parameter-Efficient Fine-Tuning for Large Language Models [24.17147521556083]
本稿では,新しいPEFT手法であるMoELoRAを紹介する。
数学推論と常識推論のベンチマークにおいて,11のタスクについて実験を行った。
MoELoRAはLoRAよりも4.2%高い平均性能を達成し、いくつかのベンチマークで175B GPT-3.5と比較して競争性能を示した。
論文 参考訳(メタデータ) (2024-02-20T09:30:48Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。