論文の概要: Parameter-Efficient Routed Fine-Tuning: Mixture-of-Experts Demands Mixture of Adaptation Modules
- arxiv url: http://arxiv.org/abs/2508.02587v1
- Date: Mon, 04 Aug 2025 16:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.434852
- Title: Parameter-Efficient Routed Fine-Tuning: Mixture-of-Experts Demands Mixture of Adaptation Modules
- Title(参考訳): パラメータ効率の良いルートファインチューニング:適応モジュールの混合要求
- Authors: Yilun Liu, Yunpu Ma, Yuetian Lu, Shuo Chen, Zifeng Ding, Volker Tresp,
- Abstract要約: Mixture-of-Experts (MoE)は、専門家の動的ルーティングメカニズムの恩恵を受ける。
適応モジュール自体がMOEのマルチエキスパートアーキテクチャに合わせてルーティング機構を組み込むべきかを検討する。
- 参考スコア(独自算出の注目度): 23.89617465228557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) benefits from a dynamic routing mechanism among their specialized experts, which existing Parameter- Efficient Fine-Tuning (PEFT) strategies fail to leverage. This motivates us to investigate whether adaptation modules themselves should incorporate routing mechanisms to align with MoE's multi-expert architecture. We analyze dynamics of core components when applying PEFT to MoE language models and examine how different routing strategies affect adaptation effectiveness. Extensive experiments adapting OLMoE-1B-7B and Mixtral-8x7B on various commonsense and math reasoning tasks validate the performance and efficiency of our routed approach. We identify the optimal configurations for different scenarios and provide empirical analyses with practical insights to facilitate better PEFT and MoE applications.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、既存のパラメータ・エフェクト・ファイン・チューニング(PEFT)戦略が活用できない、専門家の動的ルーティングメカニズムの恩恵を受ける。
このことは、適応モジュール自体がMoEのマルチエキスパートアーキテクチャに合わせてルーティング機構を組み込むべきかを調査する動機となっている。
PEFTをMoE言語モデルに適用する際のコアコンポーネントのダイナミクスを分析し、異なるルーティング戦略が適応性に与える影響について検討する。
OLMoE-1B-7BとMixtral-8x7Bを多種多様な常識および数学推論タスクに適用した大規模実験により,提案手法の性能と効率を検証した。
異なるシナリオに対する最適構成を特定し、PEFTおよびMoEアプリケーションの改善を促進するための実践的な洞察を経験的分析で提供する。
関連論文リスト
- MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。
実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T09:54:19Z) - Enhancing CTR Prediction with De-correlated Expert Networks [53.05653547330796]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・
D-MoEの有効性とデコリレーション原理を検証するために大規模な実験が行われた。
論文 参考訳(メタデータ) (2025-05-23T14:04:38Z) - MoFE: Mixture of Frozen Experts Architecture [0.3959905439285648]
MoFEアーキテクチャは、微細チューニング(PEFT)とMixture of Experts(MoE)アーキテクチャを統合し、トレーニング効率とモデルのスケーラビリティを向上させる。
MoEフレームワーク内のFeed Forward Networkレイヤを凍結することにより、トレーニング可能なパラメータの数を大幅に削減し、トレーニング効率を向上させると同時に、エキスパートモデルからの効果的な知識伝達を可能にする。
我々は、性能と効率のトレードオフを評価し、MoFEを他のPEFT手法と比較し、構成モデルにおけるドメインの専門知識の影響を評価し、最適なトレーニング戦略を決定する実験を行う。
論文 参考訳(メタデータ) (2025-03-09T07:24:36Z) - PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model [30.620582168350698]
Mixture-of-Experts (MoE) は、リソース利用を改善することでトランスフォーマーをスケールするための強力なアプローチとして登場した。
PEFT(Efficient Fine-Tuning)に関する最近の研究から着想を得て,PEFTモジュールを直接MoE機構に統合するための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T22:03:37Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。