論文の概要: When Does Sparse MoE Help in Vision? The Role of Backbone Compute Leverage in Sparse Routing
- arxiv url: http://arxiv.org/abs/2605.15484v1
- Date: Fri, 15 May 2026 00:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.131511
- Title: When Does Sparse MoE Help in Vision? The Role of Backbone Compute Leverage in Sparse Routing
- Title(参考訳): スパースMoEは視力にいつ役立つか : スパースルーティングにおけるバックボーンコンピューティングレバレッジの役割
- Authors: Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin,
- Abstract要約: Mixture-of-Experts (MoE)ネットワークは精度の高いトレードオフを約束するが、現実的なビジョン展開は専門家の崩壊によって妨げられる。
ハードキャパシティ制約付き上位k$ルーティングが視覚分類に有効である場合について検討する。
- 参考スコア(独自算出の注目度): 7.208745673318648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) networks promise favorable accuracy-compute trade-offs, yet practical vision deployments are hindered by expert collapse and limited end-to-end efficiency gains. We study when sparse top-$k$ routing with hard capacity constraints helps in vision classification, evaluated under multi-seed protocols on four benchmarks (CIFAR-10/100, Tiny-ImageNet, ImageNet-1K). We observe a \emph{compute-leverage pattern}: positive accuracy gaps require a substantial fraction $ρ$ of total FLOPs to be routed; at ImageNet scale this is necessary but not sufficient, as multi-expert routing ($k \geq 2$) is additionally required. Two controlled experiments isolate these factors. A hidden-size sweep on CIFAR-10 yields both predicted sign reversals across standard and depthwise backbones, ruling out backbone family as the active variable. An ImageNet-1K ablation that varies only top-$k$ -- holding architecture, initialization, and $ρ$ fixed -- reverses the gap from positive to negative across all five seeds. A per-sample variant of Soft MoE that softmaxes over experts rather than the batch rescues CIFAR-100 above the dense baseline, identifying batch-axis dispatch as the dominant failure mode in per-sample CNN settings. Code and aggregate results: https://github.com/libophd/sparse-moe-vision-rho.
- Abstract(参考訳): Mixture-of-Experts (MoE)ネットワークは、精度の高いトレードオフを約束するが、実用的なビジョンデプロイメントは、専門家の崩壊と、エンドツーエンドの効率の向上の制限によって妨げられる。
本研究では、4つのベンチマーク(CIFAR-10/100, Tiny-ImageNet, ImageNet-1K)でマルチシーズプロトコルで評価し、ハードキャパシティ制約付き上位k$ルーティングが視覚分類に役立っているかを検討する。
正の精度ギャップは全FLOPの相当分$ρ$が必要であり、ImageNetスケールでは、マルチエキスパートルーティング(k \geq 2$)も必要であるので、これは必要だが十分ではない。
2つの制御された実験はこれらの因子を分離する。
CIFAR-10の隠れサイズスイープは、標準および深度方向のバックボーンに予測された符号逆転をもたらし、バックボーンファミリーをアクティブ変数として除外する。
ImageNet-1Kのアブレーションは、トップ$k$ -- 保持アーキテクチャ、初期化、および$ρ$固定 -- だけによって異なり、このギャップを5つのシードすべてで正から負に反転させる。
バッチベースラインの上のCIFAR-100を救い出し、サンプルごとのCNN設定においてバッチ軸ディスパッチが支配的な障害モードであると特定する。
コードと集計結果:https://github.com/libophd/sparse-moe-vision-rho。
関連論文リスト
- A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance [0.0]
境界対応メトリクスと細いサブセットの株式分析は、損失関数のランク付けと隠されたトレードオフの公開方法を変える。
DeepLabV3-MobileNetV3モデルでは5つの損失がそれぞれ3回トレーニングされ、12のホールドアウトイメージで評価される。
オーバーラップベースの損失は、クロスエントロピーでF1を20ポイント以上改善する。
論文 参考訳(メタデータ) (2026-02-26T05:16:18Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Expressive Losses for Verified Robustness via Convex Combinations [67.54357965665676]
本研究では, 過近似係数と異なる表現的損失に対する性能分布の関係について検討した。
表現性が不可欠である一方で、最悪の場合の損失のより良い近似は、必ずしも優れた堅牢性-正確性トレードオフに結びついていないことを示す。
論文 参考訳(メタデータ) (2023-05-23T12:20:29Z) - Unlocking Deterministic Robustness Certification on ImageNet [39.439003787779434]
本稿では,より大規模でより深いモデルに頑健なトレーニングを拡大するための戦略について検討する。
従来のResNetに対するリプシッツ定数のバウンディングの高速な方法が緩やかであることを示し、新しい残差ブロックを設計してこの問題に対処する方法を示す。
私たちはImageNetに高速な決定論的堅牢性保証をスケールアップすることができ、この堅牢性学習へのアプローチが現実世界のアプリケーションに適用可能であることを実証しています。
論文 参考訳(メタデータ) (2023-01-29T21:40:04Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Binarizing by Classification: Is soft function really necessary? [4.329951775163721]
本稿では,二項分類問題としてネットワークバイナライゼーションに取り組むことを提案する。
また、ポーズ推定モデルの軽量化手法としてバイナライゼーションを用いる。
提案手法により,最大60.6ドルのmAPを初めて達成できる。
論文 参考訳(メタデータ) (2022-05-16T02:47:41Z) - Dep-$L_0$: Improving $L_0$-based Network Sparsification via Dependency
Modeling [6.081082481356211]
L_0$正規化によるディープニューラルネットワークのトレーニングは、ネットワークプルーニングやスパシフィケーションの顕著なアプローチのひとつだ。
本稿では,ImageNet上のResNet50のような大規模学習タスクに対して一貫性のない処理を行うことを示す。
本稿では,多層パーセプトロンとして効果的にモデル化できるバイナリゲートの依存性モデリングを提案する。
論文 参考訳(メタデータ) (2021-06-30T19:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。