論文の概要: Sparse Mixture-of-Experts Routing in Visual Diffusion Transformers:Diagnosis, Boundary Calibration and Evolutionary Roadmap from Routing Collapse to Selective Deadlock
- arxiv url: http://arxiv.org/abs/2605.19378v1
- Date: Tue, 12 May 2026 17:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 01:01:02.800407
- Title: Sparse Mixture-of-Experts Routing in Visual Diffusion Transformers:Diagnosis, Boundary Calibration and Evolutionary Roadmap from Routing Collapse to Selective Deadlock
- Title(参考訳): 視覚拡散変換器におけるスパースミクチャー・オブ・エクササイズ・ルーティング:経路崩壊から選択的デッドロックへの診断・境界校正・進化的ロードマップ
- Authors: Haiying Sha,
- Abstract要約: 本稿では,ビデオ拡散変換器におけるToken-Choice sparse Mixture-of-Experts(MoE)の学習障害モードを系統的に診断する。
ルーティングされた専門家は元のFFN重みを正確にクローンし、共有された専門家は検証のためにゼロに、そして実際のトレーニングのために極端に小さな非ゼロノイズに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper systematically diagnoses the training failure modes of Token-Choice sparse Mixture-of-Experts (MoE) on video Diffusion Transformers. Starting from a pretrained dense model of about 5 billion parameters, we convert it into an MoE architecture following three laws: routed experts exactly clone the original FFN weights, shared experts are initialized to zero for verification and then to extremely small non-zero noise for actual training, while only the gating networks start from random initialization. Experiments reveal a hierarchy of five failure modes: (1) linear routers suffer global soft saturation with complete expert homogenization; (2) MLP routers introduce selective deadlock, where roughly one-third of layers degenerate into a single-expert mode that cannot be prevented by increasing the auxiliary loss; (3) cross-attention routers exhibit preliminary self-recovery, yet about nine layers remain stubbornly deadlocked; (4) deadlocked layers display a U-shaped distribution, concentrated in shallow visual processing layers and deep semantic integration layers; (5) bfloat16 mixed precision causes tiny weight updates to be truncated to zero by hardware. Based on routing decision time series over 65 million tokens across 5,000 training steps, we propose the Functional Redundancy Hypothesis: deadlock is a rational waiting strategy before the shared expert matures within the gate-shared expert-routed expert triadic system. This hypothesis is supported by the theory of functional redundancy in systems biology. On the engineering side, we summarize the Three Laws of dense-to-MoE conversion and provide a complete solution for the bfloat16 precision trap. We calibrate the current capability boundary of the Token-Choice paradigm and outline a three-step evolutionary roadmap from visual unification to a world model.
- Abstract(参考訳): 本稿では,ビデオ拡散変換器におけるToken-Choice sparse Mixture-of-Experts(MoE)の学習障害モードを系統的に診断する。
ルーティングされた専門家は元のFFN重みを正確にクローンし、共有された専門家は検証のためにゼロに初期化され、実際のトレーニングのために非常に小さな非ゼロノイズに変換され、ゲーティングネットワークのみがランダム初期化から始まります。
1) 線形ルータは、完全な専門的均質化を伴う大域的ソフト飽和に悩まされ、(2) MLPルータは、補助的な損失を増大させることで防げない単一専門家モードに、約3分の1の層が退避する選択的なデッドロックを導入し、(3) クロスアテンションルータは、予備的な自己回復を示すが、約9つの層は頑強にデッドロックされている、(4) デッドロックされた層は、浅いビジュアル処理層と深いセマンティック統合層に集中したU字型の分布を表示する、(5) bfloat16 混合精度は、ハードウェアによって小さな重量更新をゼロに切り離す。
5000のトレーニングステップにまたがる6500万以上のトークンのルーティング決定時系列に基づいて、デッドロックは、ゲートシェアされた専門家による三進的システム内で、共有専門家が成熟するまでの合理的な待ち戦略である、機能的冗長仮説を提案する。
この仮説は、系の生物学における機能的冗長性の理論によって支持されている。
工学面では、高密度から高密度への変換の3つの法則を要約し、bfloat16精度トラップの完全な解を提供する。
Token-Choiceパラダイムの現在の能力境界を校正し、視覚統一から世界モデルへの3段階の進化ロードマップを概説する。
関連論文リスト
- MolmoAct2: Action Reasoning Models for Real-world Deployment [67.6315757474802]
MolmoAct2は、実用的なデプロイメントのために構築された、完全にオープンなアクション推論モデルである。
空間的および具体的推論に特化した VLM バックボーンである MolmoER を紹介する。
低コストプラットフォームにまたがる3つの新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2026-05-04T17:51:21Z) - Cortex-Inspired Continual Learning: Unsupervised Instantiation and Recovery of Functional Task Networks [2.9490560350642405]
ブロックシーケンス連続学習では、1つのモデルが先行するソリューションを保護し、先行するソリューションがタスクラベルなしで現在の入力と一致する推論時間で効率的に推論することを要求する。
哺乳動物新皮質に見られる構造的および動的モチーフにインスパイアされたパラメータアイソレーション法であるFunction Task Networks (FTN) を提案する。
論文 参考訳(メタデータ) (2026-04-27T16:06:28Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection [0.0]
非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
論文 参考訳(メタデータ) (2026-01-27T23:21:59Z) - Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection [85.0189917888094]
本稿では,微妙で頻繁なミスによって生じる課題に対処するため,Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) フレームワークを提案する。
提案手法は,特に稀かつ曖昧な誤りの特定において,高い性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T12:00:42Z) - Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - Convolutional Neural Networks and Mixture of Experts for Intrusion Detection in 5G Networks and beyond [5.452584641316627]
6G/NextGネットワークは、新たなセキュリティ脅威に対して脆弱になる可能性がある。
侵入検知タスクの既存の研究は、浅い機械学習分類器の列車に依存している。
悪意のあるトラフィックを特定するために,Mixture of Experts (MoE)を統合した最初の研究を行った。
論文 参考訳(メタデータ) (2024-12-04T17:20:01Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。