論文の概要: SliceMoE: Routing Embedding Slices Instead of Tokens for Fine-Grained and Balanced Transformer Scaling
- arxiv url: http://arxiv.org/abs/2510.04286v1
- Date: Sun, 05 Oct 2025 16:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.562232
- Title: SliceMoE: Routing Embedding Slices Instead of Tokens for Fine-Grained and Balanced Transformer Scaling
- Title(参考訳): SliceMoE:細かい粒度とバランスの取れたトランスフォーマースケーリングのためのトークンではなく、埋め込みスライスをルーティングする
- Authors: Harshil Vejendla,
- Abstract要約: Mixture-of-Experts (MoE)レイヤは、トークンをフィードフォワードの専門家のまばらなサブセットにルーティングすることで、トランスフォーマーをスケールする。
我々はトークンの隠れベクトルの連続スライスをルーティングするアーキテクチャであるSliceMoEを紹介する。
WikiText-103言語モデリング、WMT En-De翻訳、および3つのテキスト分類データセットの実験により、SliceMoEは密度の高いベースラインよりも1.7倍高速な推論が可能となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) layers scale transformers by routing tokens to a sparse subset of feed-forward experts. Token-level routing, however, assigns an entire semantic spectrum to each expert, creating capacity bottlenecks, load-balancing pathologies, and limited specialization. We introduce SliceMoE, an architecture that routes contiguous slices of a token's hidden vector. A d-dimensional embedding is partitioned into S slices, and for each slice, a lightweight shared router predicts the top-k experts. Experts operate on their assigned slices independently, and outputs are reassembled, maintaining per-token FLOP efficiency. Because slices from different tokens interleave within an expert, utilization is naturally smoother. We propose a slice-level capacity loss, cross-slice dropout, and efficient fused batched GEMM kernels. Experiments on WikiText-103 language modeling, WMT En-De translation, and three text-classification datasets show SliceMoE attains up to 1.7x faster inference than dense baselines, 12 to 18 percent lower perplexity than parameter-matched token-MoE, and improved expert balance, with interpretable expertise over syntactic versus semantic subspaces.
- Abstract(参考訳): Mixture-of-Experts (MoE)レイヤは、トークンをフィードフォワードの専門家のまばらなサブセットにルーティングすることで、トランスフォーマーをスケールする。
しかし、トークンレベルのルーティングは、各専門家にセマンティックスペクトル全体を割り当て、キャパシティボトルネック、ロードバランシングパス、限定された特殊化を生み出す。
我々はトークンの隠れベクトルの連続スライスをルーティングするアーキテクチャであるSliceMoEを紹介する。
D次元の埋め込みはSスライスに分割され、各スライス毎に軽量の共有ルータがトップkの専門家を予測する。
専門家は割り当てられたスライスを個別に操作し、出力は再組み立てされ、トーケン毎のFLOP効率を維持する。
異なるトークンのスライスを専門家の間でインターリーブするため、利用は自然にスムーズである。
本稿では,スライスレベルのキャパシティ損失,クロススライス・ドロップアウト,および効率よく融合したGEMMカーネルを提案する。
WikiText-103言語モデリング、WMT En-De翻訳、および3つのテキスト分類データセットの実験では、SliceMoEは密度の高いベースラインよりも最大1.7倍高速な推論が可能であり、パラメータマッチングされたトークン-MoEよりも12~18%低いパープレキシティ、専門家のバランスを改善し、構文とセマンティック部分空間に関する専門知識を解釈できる。
関連論文リスト
- Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition [12.160284873788019]
Mixture-of-experts (MoE)アーキテクチャは、言語モデリングから自動音声認識(ASR)へと拡張されている。
我々の分析によると、ほとんどの層におけるルータは、他の層におけるルータの選択と強く相関しない専門家の選択を行う。
異なるレイヤの専門家間の協力を強化し、より高度な専門化を促進するために、私たちは異なるMoE層にまたがる共有ルータを使用します。
論文 参考訳(メタデータ) (2025-07-08T07:18:33Z) - Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文 参考訳(メタデータ) (2025-06-23T02:15:43Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。