論文の概要: Improving MoE Compute Efficiency by Composing Weight and Data Sparsity
- arxiv url: http://arxiv.org/abs/2601.15370v1
- Date: Wed, 21 Jan 2026 18:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.379962
- Title: Improving MoE Compute Efficiency by Composing Weight and Data Sparsity
- Title(参考訳): 重みとデータ分散化によるMoE計算効率の向上
- Authors: Maciej Kilian, Oleg Mkrtchyan, Luke Zettlemoyer, Akshat Shrivastava, Armen Aghajanyan,
- Abstract要約: Mixture-of-Experts 層は重量空間によって計算効率を向上する。
各専門家がトークンのサブセットだけを処理するようなデータスパシティは、補完的な軸を提供する。
- 参考スコア(独自算出の注目度): 50.654297246411545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts layers achieve compute efficiency through weight sparsity: each token activates only a subset of experts. Data sparsity, where each expert processes only a subset of tokens, offers a complementary axis. Expert-choice routing implements data sparsity directly but violates causality in autoregressive models, creating train-inference mismatch. We recover data sparsity within causal token-choice MoE by leveraging zero-compute (null) experts within the routing pool. When a token routes to null experts, those slots consume no compute. The standard load balancing objective trains the model to uniformly use all experts (real and null) therefore creating data sparsity in expectation without the causality violations. We evaluate on vision-language model training, where data heterogeneity is pronounced: vision encoders produce many low-information tokens while text tokens are denser. At matched expected FLOPs, composing weight and data sparsity yields a more compute-efficient frontier than weight sparsity alone, with gains in training loss and downstream performance. The model learns implicit modality-aware allocation, routing vision tokens to null experts more aggressively than text, without explicit modality routing.
- Abstract(参考訳): Mixture-of-Expertsレイヤは、ウェイトスペースを通じて計算効率を達成する。
各専門家がトークンのサブセットだけを処理するようなデータスパシティは、補完的な軸を提供する。
エキスパート選択ルーティングは、データスペーサを直接実装するが、自動回帰モデルの因果性に反し、列車の推論ミスマッチを生成する。
ルーティングプール内のゼロコンピュート(ヌル)の専門家を活用して、因果トークン選択MoE内のデータ空間を復元する。
トークンがnull専門家にルーティングされると、これらのスロットは計算を消費しない。
標準のロードバランシング目的は、モデルを訓練し、すべての専門家(現実と無効)を均一に使用する。
テキストトークンがより密度が高いのに対して、視覚エンコーダは多くの低情報トークンを生成します。
一致した期待値のFLOPでは、重みとデータ疎度は重量疎度単独よりも計算効率の良いフロンティアとなり、トレーニング損失や下流のパフォーマンスが向上する。
このモデルは暗黙的なモダリティアロケーションを学習し、明示的なモダリティアロケーションなしで、視覚トークンをテキストよりも攻撃的にヌルエキスパートにルーティングする。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - DADAgger: Disagreement-Augmented Dataset Aggregation [0.0]
DAggerは、トレーニング中に遭遇したすべてのサンプルについて専門家に問い合わせることで、オリジナルのデータセットを集約する模倣アルゴリズムである。
DADAgger と呼ばれる DAgger の修正を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:44:14Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Regularization via Structural Label Smoothing [22.74769739125912]
正規化は機械学習モデルの一般化性能を促進する効果的な方法である。
本稿では,ニューラルネットワークの過度な適合を防止するための出力分布正規化の一形態であるラベル平滑化に着目した。
このようなラベルの平滑化はトレーニングデータのベイズ誤り率に定量的なバイアスを与えることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。