論文の概要: Expert-Choice Routing Enables Adaptive Computation in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.01622v1
- Date: Thu, 02 Apr 2026 05:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.366512
- Title: Expert-Choice Routing Enables Adaptive Computation in Diffusion Language Models
- Title(参考訳): 拡散言語モデルにおける適応計算を可能にするエキスパートコースルーティング
- Authors: Shuibai Zhang, Caspian Zhuang, Chihan Cui, Zhihan Yang, Fred Zhangzhi Peng, Yanxin Zhang, Haoyue Bai, Zack Jia, Yang Zhou, Guanhua Chen, Ming Liu,
- Abstract要約: 専門家選択ルーティングはトークン選択ルーティングよりも拡散言語モデルに適していることを示す。
我々は、時間に依存した専門家の能力を導入します。
DLM MoEモデルでは,ECルーティングが優れたパラダイムとして確立されている。
- 参考スコア(独自算出の注目度): 11.628969213956502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) enable parallel, non-autoregressive text generation, yet existing DLM mixture-of-experts (MoE) models inherit token-choice (TC) routing from autoregressive systems, leading to load imbalance and rigid computation allocation. We show that expert-choice (EC) routing is a better fit for DLMs: it provides deterministic load balancing by design, yielding higher throughput and faster convergence than TC. Building on the property that EC capacity is externally controllable, we introduce timestep-dependent expert capacity, which varies expert allocation according to the denoising step. We find that allocating more capacity to low-mask-ratio steps consistently achieves the best performance under matched FLOPs, and provide a mechanistic explanation: tokens in low-mask-ratio contexts exhibit an order-of-magnitude higher learning efficiency, so concentrating compute on these steps yields the largest marginal return. Finally, we show that existing pretrained TC DLMs can be retrofitted to EC by replacing only the router, achieving faster convergence and improved accuracy across diverse downstream tasks. Together, these results establish EC routing as a superior paradigm for DLM MoE models and demonstrate that computation in DLMs can be treated as an adaptive policy rather than a fixed architectural constant. Code is available at https://github.com/zhangshuibai/EC-DLM.
- Abstract(参考訳): 拡散言語モデル(DLM)は、並列で非自己回帰的なテキスト生成を可能にするが、既存のDLMミックスオブエキスパート(MoE)モデルは自動回帰システムからトークン選択(TC)ルーティングを継承し、負荷不均衡と厳密な計算割り当てをもたらす。
我々は、専門家選択(EC)ルーティングがDLMに適していることを示し、設計による決定論的ロードバランシングを提供し、TCKよりも高いスループットと高速な収束をもたらす。
外部制御可能なECキャパシティを基盤として,時間に依存した専門家キャパシティを導入する。
低マスク比のステップにより多くのキャパシティを割り当てることは、一致したFLOPのベストパフォーマンスを一貫して達成し、メカニカルな説明を提供する。
最後に、既存の訓練済みのTC DLMを、ルータのみを置き換え、より高速な収束を実現し、様々な下流タスクにまたがる精度を向上させることにより、ECに適合させることができることを示す。
これらの結果はDLM MoEモデルに優れたパラダイムとしてECルーティングを確立し、DLMの計算を固定アーキテクチャ定数ではなく適応ポリシーとして扱うことができることを示した。
コードはhttps://github.com/zhangshuibai/EC-DLM.comで入手できる。
関連論文リスト
- Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models [52.502867924372275]
Mixture-of-Experts (MoE)モデルは、スパース専門家のアクティベーションを通じて効率的なスケーリングを実現するが、デプロイメントの分散シフトによる最適以下のルーティング決定に悩まされることが多い。
我々は、外部の監視やデータなしで、テキスト生成中にMoEルーティング決定を継続的に適用するテキストタデータフリーオンラインテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-16T16:24:36Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。