論文の概要: Selective Sinkhorn Routing for Improved Sparse Mixture of Experts
- arxiv url: http://arxiv.org/abs/2511.08972v1
- Date: Thu, 13 Nov 2025 01:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.333131
- Title: Selective Sinkhorn Routing for Improved Sparse Mixture of Experts
- Title(参考訳): Sinkhorn Routing for Improved Sparse Mixture of Experts (特集 New Trends)
- Authors: Duc Anh Nguyen, Huu Binh Ta, Nhuan Le Duc, Tan M. Nguyen, Toan Tran,
- Abstract要約: SMOE(Sparse Mixture-of-Experts)はスケーラブルで計算効率の良いアーキテクチャとして注目されている。
既存のSMoEモデルは、しばしば専門家の多様性を促進するために補助的な損失と追加の訓練可能なパラメータに依存している。
SSR(Selective Sinkhorn Routing)は、補助的損失を軽量なSinkhornベースのルーティングに置き換えるルーティング機構である。
- 参考スコア(独自算出の注目度): 6.598611263174362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (SMoE) has gained prominence as a scalable and computationally efficient architecture, enabling significant growth in model capacity without incurring additional inference costs. However, existing SMoE models often rely on auxiliary losses (e.g., z-loss, load balancing) and additional trainable parameters (e.g., noisy gating) to encourage expert diversity, leading to objective misalignment and increased model complexity. Moreover, existing Sinkhorn-based methods suffer from significant training overhead due to their heavy reliance on the computationally expensive Sinkhorn algorithm. In this work, we formulate token-to-expert assignment as an optimal transport problem, incorporating constraints to ensure balanced expert utilization. We demonstrate that introducing a minimal degree of optimal transport-based routing enhances SMoE performance without requiring auxiliary balancing losses. Unlike previous methods, our approach derives gating scores directly from the transport map, enabling more effective token-to-expert balancing, supported by both theoretical analysis and empirical results. Building on these insights, we propose Selective Sinkhorn Routing (SSR), a routing mechanism that replaces auxiliary loss with lightweight Sinkhorn-based routing. SSR promotes balanced token assignments while preserving flexibility in expert selection. Across both language modeling and image classification tasks, SSR achieves faster training, higher accuracy, and greater robustness to input corruption.
- Abstract(参考訳): SMOE(Sparse Mixture-of-Experts)はスケーラブルで計算効率のよいアーキテクチャとして有名になり、追加の推論コストを発生させることなく、モデルキャパシティを著しく向上させることができる。
しかし、既存のSMoEモデルは、しばしば専門家の多様性を促進するために補助的損失(例えば、z-loss、ロードバランシング)と追加の訓練可能なパラメータ(例えば、うるさいゲーティング)に頼り、客観的なミスアライメントとモデルの複雑さを増大させる。
さらに、既存のシンクホーン法は、計算コストのかかるシンクホーンアルゴリズムに大きく依存しているため、トレーニングのオーバーヘッドがかなり大きい。
本研究では,最適な輸送問題としてトークン・ツー・エキスパートの割り当てを定式化し,バランスの取れた専門家の利用を確保するために制約を取り入れた。
我々は、最小限のトランスポートベースのルーティングを導入することで、補助的バランスロスを必要とせず、SMoE性能を向上させることを実証した。
従来の手法とは異なり,提案手法は輸送マップから直接ゲーティングスコアを導出し,理論的解析と経験的結果の両方によって支持される,より効果的なトークン間バランスを実現する。
これらの知見に基づいて,SSR(Selective Sinkhorn Routing)を提案する。
SSRは、専門家の選択における柔軟性を維持しながら、バランスの取れたトークンの割り当てを促進する。
言語モデリングと画像分類の両方のタスクにおいて、SSRはより高速なトレーニング、高い精度、入力の破損に対する堅牢性を達成する。
関連論文リスト
- Dual-granularity Sinkhorn Distillation for Enhanced Learning from Long-tailed Noisy Data [67.25796812343454]
ディープラーニングのための実世界のデータセットは、クラス不均衡とラベルノイズの共起的な課題にしばしば悩まされる。
蒸留と相補的な知見の統合により二重強靭性を高める新しいフレームワークであるD-SINKを提案する。
ベンチマークデータセットの実験では、D-SINKはロバスト性を大幅に向上し、長い尾のノイズデータから学習する際の強い経験的性能を達成することが示された。
論文 参考訳(メタデータ) (2025-10-09T13:05:27Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Load Balancing Mixture of Experts with Similarity Preserving Routers [30.279616888339543]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Efficient Single Image Super-Resolution with Entropy Attention and Receptive Field Augmentation [34.50541063621832]
本稿では,新しいエントロピーアテンション(EA)とシフトする大きなカーネルアテンション(SLKA)からなる,効率的な単一画像超解像(SISR)モデルを提案する。
EAはガウス分布で条件付けられた中間特徴のエントロピーを増大させ、その後の推論に対してより情報的な入力を提供する。
SLKAは、チャネルシフトの助けを借りてSRモデルの受容領域を拡張し、階層的特徴の多様性を高めることを好む。
論文 参考訳(メタデータ) (2024-08-08T02:03:10Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。