論文の概要: Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.06169v1
- Date: Thu, 07 May 2026 12:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.795736
- Title: Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers
- Title(参考訳): 平均モードスリーミング:1000層拡散変圧器における平均分散残差
- Authors: Pengqi Lu,
- Abstract要約: ネットワークは、トークン表現を均質化し、中心的変動を抑制するサイレントで平均支配的な崩壊状態に入ることができることを示す。
本稿では,個別に取得した残差更新とリークトランク平均更新を併用した平均変動分割(MV-Split)残差法を提案する。
- 参考スコア(独自算出の注目度): 0.2436681150766912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling Diffusion Transformers (DiTs) to hundreds of layers introduces a structural vulnerability: networks can enter a silent, mean-dominated collapse state that homogenizes token representations and suppresses centered variation. Through mechanistic auditing, we isolate the trigger event of this collapse as Mean Mode Screaming (MMS). MMS can occur even when training appears stable, with a mean-coherent backward shock on residual writers that opens deep residual branches and drives the network into a mean-dominated state. We show this behavior is driven by an exact decomposition of these gradients into mean-coherent and centered components, compounded by the structural suppression of attention-logit gradients through the null space of the Softmax Jacobian once values homogenize. To address this, we propose Mean-Variance Split (MV-Split) Residuals, which combine a separately gained centered residual update with a leaky trunk-mean replacement. On a 400-layer single-stream DiT, MV-Split prevents the divergent collapse that crashes the un-stabilized baseline; it tracks close to the baseline's pre-crash trajectory while remaining substantially better than token-isotropic gating methods such as LayerScale across the full schedule. Finally, we present a 1000-layer DiT as a scale-validation run at boundary scales, establishing that the architecture remains stably trainable at extreme depth.
- Abstract(参考訳): ネットワークは、トークン表現を均質化し、中心的な変動を抑制するサイレントで平均的に支配的な崩壊状態に入ることができる。
メカニスティック監査を通じて,この崩壊の引き金となる事象を平均モード・スクリーミング(MMS)として分離する。
トレーニングが安定しているように見える場合でも、MMSは、深い残枝を開き、ネットワークを平均支配状態へと駆動する、残留ライターに平均的に一貫性のある後方ショックを与えることができる。
この振舞いは、これらの勾配を平均コヒーレント成分と中心成分に正確に分解し、ソフトマックスヤコビアンのヌル空間を経由したアテンション・ロジット勾配の構造的抑制によって合成されることが示される。
そこで本稿では,個別に取得した残差更新と,リークしたトランク平均更新を併用した平均分散残差(MV-Split)法を提案する。
400層のシングルストリームDiTでは、MV-Splitは、不安定なベースラインをクラッシュさせる発散を防止し、ベースラインの事前クラッシュ軌道に近づきながら、フルスケジュールでLayerScaleのようなトークン異方性ゲーティング手法よりも大幅に優れている。
最後に,1000層のDiTを境界スケールでのスケールバリデーションとして提示し,アーキテクチャが極端深さで安定的にトレーニング可能であることを確認した。
関連論文リスト
- Escaping Mode Collapse in LLM Generation via Geometric Regulation [11.183390901786659]
我々は、状態空間のアクセシビリティの低下として、動的システムビューと再解釈モードの崩壊を捉えている。
本稿では,支配的な自己強化方向を規定する軽量かつオンラインな状態空間介入であるReinforced Mode Regulation (RMR)を提案する。
RMRはモード崩壊を大幅に低減し、非常に低いエントロピー速度で安定で高品質な生成を可能にする。
論文 参考訳(メタデータ) (2026-05-01T06:12:05Z) - Convergence of Byzantine-Resilient Gradient Tracking via Probabilistic Edge Dropout [1.3902537392439644]
任意の相手メッセージを送信するビザンティンエージェントを用いたネットワーク上での分散最適化について検討する。
確率的エッジドロップアウトと漏洩積分(GT-PD-L)を用いたemphGradient Trackingを提案する。
GT-PD-Lは、盗難攻撃下での座標平均を最大4.3%上回る。
論文 参考訳(メタデータ) (2026-04-01T03:55:42Z) - Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - From Circuits to Dynamics: Understanding and Stabilizing Failure in 3D Diffusion Transformers [25.11520870904882]
3次元拡散変圧器は破滅的な障害のモードを示す。
私たちはこの現象をメルトダウンと呼ぶ。
スパース・ポイント・クラウド・コンディショニングを安定化するテスト時間制御であるPowerRemapを導入する。
論文 参考訳(メタデータ) (2026-02-11T18:42:05Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Dynamic melting and condensation of topological dislocation modes [0.0]
バルク転位格子欠陥は翻訳活性型トポロジカル絶縁体(TATI)の同定に有用である
実時間ランプを介してTATIが自明または翻訳不活性絶縁相に入ると、プリランプ欠陥モードのシグネチャは長期間持続することを示す。
転位コアで提案される動的応答は、量子結晶、光学格子、メタマテリアルにおいて、チューナブルバンドギャップの時間とともに実験的に観察することができる。
論文 参考訳(メタデータ) (2022-10-27T17:59:27Z) - Log-Likelihood Ratio Minimizing Flows: Towards Robust and Quantifiable
Neural Distribution Alignment [52.02794488304448]
そこで本研究では,対数様比統計量と正規化フローに基づく新しい分布アライメント手法を提案する。
入力領域の局所構造を保存する領域アライメントにおいて,結果の最小化を実験的に検証する。
論文 参考訳(メタデータ) (2020-03-26T22:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。