論文の概要: Route Experts by Sequence, not by Token
- arxiv url: http://arxiv.org/abs/2511.06494v1
- Date: Sun, 09 Nov 2025 18:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.978047
- Title: Route Experts by Sequence, not by Token
- Title(参考訳): 藤軒ではなく、連続によるルートスペシャリスト
- Authors: Tiansheng Wen, Yifei Wang, Aosong Feng, Long Ma, Xinyang Liu, Yifan Wang, Lixuan Guo, Bo Chen, Stefanie Jegelka, Chenyu You,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、トークンごとに専門家のサブセットだけを活性化することによって、大きな言語モデル(LLM)をスケールする。
標準的なTopKルーティングは、すべてのトークンに同じ固定数の専門家を割り当てる。
トークンレベルからシークエンスレベルにシフトする最小限の修正であるシークエンスレベルTopK(SeqTopK)を提案する。
- 参考スコア(独自算出の注目度): 58.92918003265283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures scale large language models (LLMs) by activating only a subset of experts per token, but the standard TopK routing assigns the same fixed number of experts to all tokens, ignoring their varying complexity. Prior adaptive routing methods introduce additional modules and hyperparameters, often requiring costly retraining from scratch. We propose Sequence-level TopK (SeqTopK), a minimal modification that shifts the expert budget from the token level to the sequence level. By selecting the top $T \cdot K$ experts across all $T$ tokens, SeqTopK enables end-to-end learned dynamic allocation -- assigning more experts to difficult tokens and fewer to easy ones -- while preserving the same overall budget. SeqTopK requires only a few lines of code, adds less than 1% overhead, and remains fully compatible with pretrained MoE models. Experiments across math, coding, law, and writing show consistent improvements over TopK and prior parameter-free adaptive methods, with gains that become substantially larger under higher sparsity (up to 16.9%). These results highlight SeqTopK as a simple, efficient, and scalable routing strategy, particularly well-suited for the extreme sparsity regimes of next-generation LLMs. Code is available at https://github.com/Y-Research-SBU/SeqTopK.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、トークンごとに専門家のサブセットだけをアクティベートすることで、大きな言語モデル(LLM)をスケールするが、標準のTopKルーティングは同じ数の専門家をトークンに割り当てる。
事前の適応的ルーティング手法は追加のモジュールとハイパーパラメータを導入し、しばしばスクラッチからコストがかかる。
トークンレベルからシークエンスレベルにシフトする最小限の修正であるシークエンスレベルTopK(SeqTopK)を提案する。
すべての$T$トークンで上位の$T \cdot K$専門家を選択することで、SeqTopKはエンドツーエンドの動的アロケーションを可能にします。
SeqTopKはわずか数行のコードしか必要とせず、オーバーヘッドは1%未満で、事前訓練されたMoEモデルと完全に互換性がある。
数学、コーディング、法則、書面での実験では、TopKやそれ以前のパラメータフリー適応法よりも一貫した改善が見られ、その利得は高頻度(最大16.9%)よりもかなり大きい。
これらの結果から、SeqTopKは単純で効率的でスケーラブルなルーティング戦略であり、特に次世代LLMの極端に疎結合なシステムに適していることが分かる。
コードはhttps://github.com/Y-Research-SBU/SeqTopK.comで入手できる。
関連論文リスト
- SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - Distribution-Aware Feature Selection for SAEs [1.2396474483677118]
TopK SAEはKが最も活発な潜伏者から各トークンを再構築する。
BatchTopKはこの制限に対処し、トークンのバッチ間でトップアクティベーションを選択する。
これは平均的な再構築を改善するが、"アクティベーション・宝くじ"のリスクを負う
論文 参考訳(メタデータ) (2025-08-29T04:42:17Z) - Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。
近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。
本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文 参考訳(メタデータ) (2025-04-29T11:06:03Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Mixture-of-Experts with Expert Choice Routing [44.777850078713634]
以前の作業では、トップk関数を使用して各トークンに一定数の専門家を割り当てていた。
本稿では,専門家選択手法を用いた異種混合実験を提案する。
本手法は, トレーニング収束時間を2倍以上改善する。
論文 参考訳(メタデータ) (2022-02-18T17:46:11Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。