Fugu-MT 論文翻訳(概要): Improving MoE Compute Efficiency by Composing Weight and Data Sparsity

論文の概要: Improving MoE Compute Efficiency by Composing Weight and Data Sparsity

arxiv url: http://arxiv.org/abs/2601.15370v1
Date: Wed, 21 Jan 2026 18:53:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-23 21:37:20.379962
Title: Improving MoE Compute Efficiency by Composing Weight and Data Sparsity
Title（参考訳）: 重みとデータ分散化によるMoE計算効率の向上
Authors: Maciej Kilian, Oleg Mkrtchyan, Luke Zettlemoyer, Akshat Shrivastava, Armen Aghajanyan,
Abstract要約: Mixture-of-Experts 層は重量空間によって計算効率を向上する。各専門家がトークンのサブセットだけを処理するようなデータスパシティは、補完的な軸を提供する。
参考スコア（独自算出の注目度）: 50.654297246411545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Experts layers achieve compute efficiency through weight sparsity: each token activates only a subset of experts. Data sparsity, where each expert processes only a subset of tokens, offers a complementary axis. Expert-choice routing implements data sparsity directly but violates causality in autoregressive models, creating train-inference mismatch. We recover data sparsity within causal token-choice MoE by leveraging zero-compute (null) experts within the routing pool. When a token routes to null experts, those slots consume no compute. The standard load balancing objective trains the model to uniformly use all experts (real and null) therefore creating data sparsity in expectation without the causality violations. We evaluate on vision-language model training, where data heterogeneity is pronounced: vision encoders produce many low-information tokens while text tokens are denser. At matched expected FLOPs, composing weight and data sparsity yields a more compute-efficient frontier than weight sparsity alone, with gains in training loss and downstream performance. The model learns implicit modality-aware allocation, routing vision tokens to null experts more aggressively than text, without explicit modality routing.
Abstract（参考訳）: Mixture-of-Expertsレイヤは、ウェイトスペースを通じて計算効率を達成する。各専門家がトークンのサブセットだけを処理するようなデータスパシティは、補完的な軸を提供する。エキスパート選択ルーティングは、データスペーサを直接実装するが、自動回帰モデルの因果性に反し、列車の推論ミスマッチを生成する。ルーティングプール内のゼロコンピュート(ヌル)の専門家を活用して、因果トークン選択MoE内のデータ空間を復元する。トークンがnull専門家にルーティングされると、これらのスロットは計算を消費しない。標準のロードバランシング目的は、モデルを訓練し、すべての専門家(現実と無効)を均一に使用する。テキストトークンがより密度が高いのに対して、視覚エンコーダは多くの低情報トークンを生成します。一致した期待値のFLOPでは、重みとデータ疎度は重量疎度単独よりも計算効率の良いフロンティアとなり、トレーニング損失や下流のパフォーマンスが向上する。このモデルは暗黙的なモダリティアロケーションを学習し、明示的なモダリティアロケーションなしで、視覚トークンをテキストよりも攻撃的にヌルエキスパートにルーティングする。

関連論文リスト

Train Once, Forget Precisely: Anchored Optimization for Efficient Post-Hoc Unlearning [0.0]
深層画像分類器におけるポストホックアンラーニングのための理論的基礎と計算効率のよいフレームワークであるtextbfForget-Aligned Model Reconstruction (FAMR) を導入する。 FAMRフレームは、モデルパラメータを元の値に固定しながら、忘れセット上の均一な予測損失を最小限に抑える制約付き最適化問題である。 CIFAR-10とImageNet-100 FAMRによるクラス忘れタスクの実証的な結果が得られた。
論文参考訳（メタデータ） (2025-06-17T13:40:48Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。 XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。 6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文参考訳（メタデータ） (2023-10-09T08:07:04Z)
DADAgger: Disagreement-Augmented Dataset Aggregation [0.0]
DAggerは、トレーニング中に遭遇したすべてのサンプルについて専門家に問い合わせることで、オリジナルのデータセットを集約する模倣アルゴリズムである。 DADAgger と呼ばれる DAgger の修正を提案する。
論文参考訳（メタデータ） (2023-01-03T20:44:14Z)
How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。 1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文参考訳（メタデータ） (2022-02-03T18:04:54Z)
BiFair: Training Fair Models with Bilevel Optimization [8.2509884277533]
我々は,ユーティリティの最小化と公正な関心の喪失を両立させる,BiFairという新しいトレーニングアルゴリズムを開発した。我々のアルゴリズムは、常により良い性能、すなわち、与えられた公正度メトリックのより優れた値、あるいはより高い精度で到達する。
論文参考訳（メタデータ） (2021-06-03T22:36:17Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
An Information Bottleneck Approach for Controlling Conciseness in Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文参考訳（メタデータ） (2020-05-01T23:26:41Z)
Regularization via Structural Label Smoothing [22.74769739125912]
正規化は機械学習モデルの一般化性能を促進する効果的な方法である。本稿では,ニューラルネットワークの過度な適合を防止するための出力分布正規化の一形態であるラベル平滑化に着目した。このようなラベルの平滑化はトレーニングデータのベイズ誤り率に定量的なバイアスを与えることを示す。
論文参考訳（メタデータ） (2020-01-07T05:45:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。