論文の概要: Adaptive and Fine-grained Module-wise Expert Pruning for Efficient LoRA-MoE Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.26340v1
- Date: Wed, 29 Apr 2026 06:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.276592
- Title: Adaptive and Fine-grained Module-wise Expert Pruning for Efficient LoRA-MoE Fine-Tuning
- Title(参考訳): 効率的なLoRA-MoEファインチューニングのための適応的かつきめ細かなモジュールワイドエキスパートプルーニング
- Authors: Weihang Li, Jianchun Liu, Hongli Xu,
- Abstract要約: LoRA-MoEはパラメータ効率の良い微調整のための効果的なパラダイムとして登場した。
既存のLoRA-MoEフレームワークは通常、下流モジュールにまたがる固定かつ均一なトランスフォーマーを採用する。
本稿では,動的モジュールワイド・エキスパート・プルーニングに基づくLoRA-MoEファインチューニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.981851203999614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LoRA-MoE has emerged as an effective paradigm for parameter-efficient fine-tuning, combining the low training cost of LoRA with the increased adaptation capacity of Mixture-of-Experts (MoE). However, existing LoRA-MoE frameworks typically adopt a fixed and uniform expert configuration across heterogeneous Transformer modules (\eg, attention query/key projections and MLP gating networks), ignoring their distinct functional roles and capacity requirements. This design leads to localized over-provisioning, redundant trainable parameters, and unnecessary optimizer-state overhead. Moreover, prior methods enforce load balancing among experts throughout training. Although beneficial in the early stage, this constraint becomes restrictive once routing patterns stabilize, limiting expert specialization on downstream tasks. In this paper, we propose DMEP, a novel LoRA-MoE fine-tuning framework based on Dynamic Module-wise Expert Pruning. DMEP tracks expert utilization during training and physically removes low-utility experts on a per-module basis, yielding a more compact expert structure tailored to different modules. The pruned model then continues training without the load-balancing constraint, freeing the remaining experts to focus entirely on the downstream task and develop specialized expertise. By jointly adapting module-wise expert capacity and eliminating unnecessary balancing, DMEP improves both parameter efficiency and training efficiency. Extensive experiments on multiple reasoning benchmarks show that DMEP reduces trainable parameters by 35\%--43\% and improves training throughput by about 10\%, while maintaining or surpassing the downstream reasoning accuracy of uniform LoRA-MoE baselines.
- Abstract(参考訳): LoRA-MoEはパラメータ効率の良い微調整のための効果的なパラダイムとして登場し、LoRAの低トレーニングコストとMixture-of-Experts (MoE)の適応能力の増大を組み合わせた。
しかし、既存のLoRA-MoEフレームワークは通常、異種トランスフォーマーモジュール(エッジ、アテンションクエリ/キープロジェクション、MLPゲーティングネットワーク)にまたがる固定的で均一な専門家構成を採用しており、それぞれの機能的役割とキャパシティ要件を無視している。
この設計は、局所化されたオーバープロビジョン、冗長なトレーニング可能なパラメータ、不要なオプティマイザ-ステートオーバーヘッドをもたらす。
さらに、事前の手法では、トレーニングを通じて専門家間のロードバランシングが実施される。
初期の段階では有益だが、ルーティングパターンが安定すると制約が制限され、下流タスクの専門化が制限される。
本稿では,動的モジュールワイド・エキスパート・プルーニングに基づく新しいLORA-MoEファインチューニングフレームワークであるDMEPを提案する。
DMEPはトレーニング中のエキスパートの利用を追跡し、モジュール単位の低ユーティリティの専門家を物理的に排除し、異なるモジュールに合わせたよりコンパクトなエキスパート構造を提供する。
刈り取られたモデルは、負荷分散の制約なしにトレーニングを継続し、残りの専門家は、下流のタスクに完全に集中し、専門的な専門知識を開発することができる。
モジュールワイズの専門家キャパシティを共同で適用し、不要なバランシングを排除することによって、DMEPはパラメータ効率とトレーニング効率の両方を改善します。
複数の推論ベンチマークにおいて、DMEPはトレーニング可能なパラメータを35\%--43\%削減し、トレーニングのスループットを約10\%向上し、均一なLoRA-MoEベースラインの下流推論精度を維持したり、超えたりしている。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning [49.90176890917986]
マルチタスク学習(MTL)のための強力なフレームワークとして、Mixture-of-Experts(MoE)が登場した。
既存のMoE-MTL法は、しばしばシングルタスクで事前訓練されたバックボーンに依存し、冗長な適応と非効率的な知識共有に悩まされる。
低ランク適応 (LoRA) に基づく MoE の適応型共有専門家 (ASE) を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:49:19Z) - TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts [4.5558042369389105]
TT-LoRA MoEはトレーニングを2つの異なる最適化段階に分解する。
まず、軽量かつテンソル化低ランクアダプタ(TT-LoRAエキスパート)を個別に訓練する。
その後、これらの専門家アダプタは凍結状態のままであり、マルチタスク設定でタスク間干渉を排除し、忘れる。
個別に訓練されたスパースMOEルータは、ベースモデル表現を動的に活用し、推論時に入力ごとに正確に1つの特別なアダプタを選択する。
総合的な実験により、我々のアーキテクチャは低ランクアダプタのメモリ効率を保ち、大きなエキスパートプールにシームレスにスケールし、堅牢なタスクレベルの最適化を実現する。
論文 参考訳(メタデータ) (2025-04-29T21:46:43Z) - DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。