論文の概要: Mixture of Routers
- arxiv url: http://arxiv.org/abs/2503.23362v1
- Date: Sun, 30 Mar 2025 08:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.084983
- Title: Mixture of Routers
- Title(参考訳): ルータの混合
- Authors: Jia-Chen Zhang, Yu-Jie Xiong, Xi-He Qiu, Chun-Ming Xia, Fei Dai,
- Abstract要約: 我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。
MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。
その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
- 参考スコア(独自算出の注目度): 4.248666380057258
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Supervised fine-tuning (SFT) is a milestone in aligning large language models with human instructions and adapting them to downstream tasks. In particular, Low-Rank Adaptation (LoRA) has gained widespread attention due to its parameter efficiency. However, its impact on improving the performance of large models remains limited. Recent studies suggest that combining LoRA with Mixture-of-Experts (MoE) can significantly enhance fine-tuning performance. MoE adapts to the diversity and complexity of datasets by dynamically selecting the most suitable experts, thereby improving task accuracy and efficiency. Despite impressive results, recent studies reveal issues in the MoE routing mechanism, such as incorrect assignments and imbalanced expert allocation. Inspired by the principles of Redundancy and Fault Tolerance Theory. We innovatively integrate the concept of Mixture of Experts into the routing mechanism and propose an efficient fine-tuning method called Mixture of Routers (MoR). It employs multiple sub-routers for joint selection and uses a learnable main router to determine the weights of the sub-routers. The results show that MoR outperforms baseline models on most tasks, achieving an average performance improvement of 1%. MoR can serve as a plug-and-play, parameter-efficient fine-tuning method suitable for a wide range of applications. Our code is available here: https://anonymous.4open.science/r/MoR-DFC6.
- Abstract(参考訳): Supervised Fine-tuning (SFT)は、大規模な言語モデルを人間の指示と整合させ、下流タスクに適応させるマイルストーンである。
特にローランド適応(LoRA)はそのパラメータ効率のために広く注目を集めている。
しかし、大型モデルの性能向上に対する影響は依然として限られている。
近年の研究では,LoRAとMixture-of-Experts(MoE)を組み合わせることで,微調整性能が著しく向上することが示唆されている。
MoEは、最適な専門家を動的に選択することで、データセットの多様性と複雑さに適応し、タスクの正確性と効率を向上させる。
印象的な結果にもかかわらず、最近の研究では、不正な割当や不均衡な専門家割当など、MoEルーティング機構の問題点が明らかにされている。
冗長性とフォールトトレランス理論の原則に触発された。
そこで我々は,Mixture of Routers (MoR) と呼ばれる効率的な微調整手法を提案する。
ジョイントセレクションには複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重量を決定する。
その結果、MoRは、ほとんどのタスクにおけるベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
MoRは、幅広いアプリケーションに適した、プラグアンドプレイでパラメータ効率の良い微調整方法として機能する。
私たちのコードは、https://anonymous.4open.science/r/MoR-DFC6.comで利用可能です。
関連論文リスト
- DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。
我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。
CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.73697327316267]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。
我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。
ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文 参考訳(メタデータ) (2024-12-19T10:21:20Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。