論文の概要: GatePro: Parameter-Free Expert Selection Optimization for Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2510.13079v1
- Date: Wed, 15 Oct 2025 01:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.467325
- Title: GatePro: Parameter-Free Expert Selection Optimization for Mixture-of-Experts Models
- Title(参考訳): GatePro:Mixture-of-Expertsモデルのパラメータフリーエキスパート選択最適化
- Authors: Chen Zheng, Yuhang Cai, Deyi Liu, Jin Ma, Yiyuan Ma, Yuan Yang, Jing Liu, Yutao Zeng, Xun Zhou, Siyuan Qiao,
- Abstract要約: GateProは、専門家選択の多様性を直接促進する新しいパラメータフリー手法である。
我々の総合的な評価は、モデルスケールとベンチマークにおけるGateProの有効性を示している。
このアプローチは、追加の学習可能なパラメータなしで、任意のトレーニングフェーズ中にホットスワップできる。
- 参考スコア(独自算出の注目度): 22.458582284833266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models leverage Mixture-of-Experts (MoE) architectures for efficient scaling, but face a critical challenge: functionally similar experts are often selected simultaneously, creating redundant computation and limiting effective model capacity. Existing auxiliary balance loss methods improve token distribution but fail to address the underlying expert diversity problem. We introduce GatePro, a novel parameter-free method that directly promotes expert selection diversity. GatePro identifies the most similar expert pairs and introduces localized competition mechanisms, preventing redundant expert co-activation while maintaining natural expert specialization. Our comprehensive evaluation demonstrates GatePro's effectiveness across model scales and benchmarks. Analysis demonstrates GatePro's ability to achieve enhanced expert diversity, where experts develop more distinct and complementary capabilities, avoiding functional redundancy. This approach can be deployed hot-swappable during any training phase without additional learnable parameters, offering a practical solution for improving MoE effectiveness.
- Abstract(参考訳): 現代の大規模言語モデルは、効率的なスケーリングのためにMixture-of-Experts(MoE)アーキテクチャを利用するが、重要な課題に直面している。
既存の補助収支損失法はトークン分布を改善するが、基礎となる専門家の多様性の問題に対処できない。
本稿では,専門家選択の多様性を直接促進する新しいパラメータフリー手法であるGateProを紹介する。
GateProは、最も類似した専門家ペアを特定し、ローカライズされた競争メカニズムを導入し、自然の専門家の専門性を維持しながら、冗長な専門家の共活性化を防ぐ。
我々の総合的な評価は、モデルスケールとベンチマークにおけるGateProの有効性を示している。
分析は、専門家が機能的冗長性を避けながら、より明瞭で相補的な能力を開発する、専門家の多様性を向上するGateProの能力を示している。
このアプローチは、学習可能なパラメータを追加せずに、任意のトレーニングフェーズにホットスワップ可能なデプロイが可能で、MoEの有効性を改善するための実用的なソリューションを提供する。
関連論文リスト
- Selective Expert Guidance for Effective and Diverse Exploration in Reinforcement Learning of LLMs [49.72591739116668]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力を高める手法として広く採用されている。
既存の手法は、有効性を向上するが多様性を無視する専門家の軌跡を模倣することでこの問題に対処する。
共振器のトーケンレベル最適化のための混合政治エキスパートナビゲーション MENTORを提案する。
論文 参考訳(メタデータ) (2025-10-05T10:38:55Z) - MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper [75.6582687942241]
本稿では,Mixture of Expert Prompt Tuning (MEPT) を効果的かつ効率的な多様体マッピングフレームワークとして提案する。
MEPTは複数のプロンプト専門家を統合し、多様な非定常データ分布を適応的に学習する。
経験的評価により、MEPTはSuperGLUE上でいくつかの最先端パラメータの効率的なベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-08-31T21:19:25Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。
まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。
これらの知見に触発されて、直交混合(OMoE)を提案する。
提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文 参考訳(メタデータ) (2025-01-17T09:27:08Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [19.365009652356793]
エキスパート-トークン共鳴(ETR)は、専門家-トークン相互作用を再想像する理論的な双方向ルーティング機構である。
ETRは、ベースラインのMoE実装と比較して、エンドツーエンドのトレーニング効率が5.4%-46.6%向上している。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。