論文の概要: From Circuits to Dynamics: Understanding and Stabilizing Failure in 3D Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.11130v1
- Date: Wed, 11 Feb 2026 18:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.329647
- Title: From Circuits to Dynamics: Understanding and Stabilizing Failure in 3D Diffusion Transformers
- Title(参考訳): 回路からダイナミクスへ:3次元拡散変換器の故障の理解と安定化
- Authors: Maximilian Plattner, Fabian Paischer, Johannes Brandstetter, Arturs Berzins,
- Abstract要約: 3次元拡散変圧器は破滅的な障害のモードを示す。
私たちはこの現象をメルトダウンと呼ぶ。
スパース・ポイント・クラウド・コンディショニングを安定化するテスト時間制御であるPowerRemapを導入する。
- 参考スコア(独自算出の注目度): 25.11520870904882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable surface completion from sparse point clouds underpins many applications spanning content creation and robotics. While 3D diffusion transformers attain state-of-the-art results on this task, we uncover that they exhibit a catastrophic mode of failure: arbitrarily small on-surface perturbations to the input point cloud can fracture the output into multiple disconnected pieces -- a phenomenon we call Meltdown. Using activation-patching from mechanistic interpretability, we localize Meltdown to a single early denoising cross-attention activation. We find that the singular-value spectrum of this activation provides a scalar proxy: its spectral entropy rises when fragmentation occurs and returns to baseline when patched. Interpreted through diffusion dynamics, we show that this proxy tracks a symmetry-breaking bifurcation of the reverse process. Guided by this insight, we introduce PowerRemap, a test-time control that stabilizes sparse point-cloud conditioning. We demonstrate that Meltdown persists across state-of-the-art architectures (WaLa, Make-a-Shape), datasets (GSO, SimJEB) and denoising strategies (DDPM, DDIM), and that PowerRemap effectively counters this failure with stabilization rates of up to 98.3%. Overall, this work is a case study on how diffusion model behavior can be understood and guided based on mechanistic analysis, linking a circuit-level cross-attention mechanism to diffusion-dynamics accounts of trajectory bifurcations.
- Abstract(参考訳): スパースポイントクラウドからの信頼性の高いサーフェス補完は、コンテンツ作成とロボティクスにまたがる多くのアプリケーションを支える。
このタスクで3D拡散変換器は最先端の結果を得るが、それらは破滅的な失敗のモードを示す: 入力点雲への任意に小さな表面の摂動は、出力を複数の切断片に分解する - メルトダウンと呼ばれる現象である。
メカニスティック解釈性からのアクティベーションパッチを用いて,メルトダウンを1つの早期認知的クロスアテンションアクティベーションに局在させる。
この活性化の特異値スペクトルはスカラープロキシを提供しており、そのスペクトルエントロピーはフラグメンテーションが発生すると上昇し、パッチが当てられるとベースラインに戻る。
拡散力学によって解釈されたこのプロキシは、逆過程の対称性を破る分岐をトラックする。
この知見に導かれて、スパースポイントクラウド条件を安定化するテスト時間制御であるPowerRemapを導入する。
我々は、Meltdownが最先端アーキテクチャ(WaLa、Make-a-Shape)、データセット(GSO、SimJEB)、Denoising Strategy(DDPM、DDIM)にまたがって持続し、PowerRemapがこの障害を最大98.3%の安定化率で効果的に対処することを実証した。
この研究は、回路レベルのクロスアテンション機構と軌道分岐の拡散力学をリンクして、力学解析に基づいて拡散モデル挙動をどのように理解し、導出するかのケーススタディである。
関連論文リスト
- MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Breaking the Bottlenecks: Scalable Diffusion Models for 3D Molecular Generation [0.0]
拡散モデルは分子設計のための強力な生成モデルとして登場した。
彼らの使用は、長いサンプリング軌道、逆過程のばらつき、そして力学の認知における構造的認識の制限によって制限されている。
直接分極拡散モデル(英語版)は、逆MCMC更新を決定論的分極ステップに置き換えることでこれらの非効率性を緩和する。
論文 参考訳(メタデータ) (2026-01-13T20:09:44Z) - Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective [13.434698786044107]
Visual Geometry Grounded Transformer (VGGT)は、最先端のフィードフォワード3D再構成を提供する。
グローバルな自己保持層は、入力シーケンスが数百フレームを超えると、劇的な崩壊現象に悩まされる。
我々は,グローバルアテンションを退化拡散過程と見なして,崩壊の厳密な数学的説明を確立する。
論文 参考訳(メタデータ) (2025-12-25T14:34:27Z) - Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers [5.187307904567701]
正規化レイヤを使わずにトレーニングを安定化する等級保存設計を提案する。
活性化マグニチュードを維持するという目標により、回転変調も導入する。
また,FIDスコアを$sim$12.8%削減した。
論文 参考訳(メタデータ) (2025-05-25T12:25:50Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Predicting Cascading Failures with a Hyperparametric Diffusion Model [66.89499978864741]
拡散モデルのレンズによる電力グリッドのカスケード故障について検討する。
我々のモデルは、バイラル拡散原理と物理に基づく概念を統合する。
この拡散モデルはカスケード故障の痕跡から学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:34:24Z) - Dynamic Addition of Noise in a Diffusion Model for Anomaly Detection [2.209921757303168]
拡散モデルは、名目データ分布を捕捉し、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。
それらの利点にもかかわらず、彼らは様々なスケールの異常、特に欠落した成分全体のような大きな異常をローカライズするのに苦労している。
本稿では,従来の暗黙的条件付け手法であるメングらを拡張し,拡散モデルの能力を高める新しい枠組みを提案する。
2022年は3つの重要な意味を持つ。
論文 参考訳(メタデータ) (2024-01-09T09:57:38Z) - Reminiscence of classical chaos in driven transmons [117.851325578242]
共振器外ドライブでさえ、トランスモンスペクトルの構造に強い変化をもたらし、その大部分がカオスであることを示す。
その結果、カオス誘起量子分解効果の出現を特徴付ける光子数しきい値が導かれる。
論文 参考訳(メタデータ) (2022-07-19T16:04:46Z) - Non-trivial effect of dephasing: Enhancement of rectification of spin
current in graded XX chains [0.0]
我々は、スピン系のグレード化されたバージョンに作用する現在の保存リンドブラッド散逸器によってモデル化されたデフォーカスノイズについて考察する。
格付けされたシステムと格付けされたシステムとの相互作用は、非自明な振る舞いを引き起こす。
論文 参考訳(メタデータ) (2022-07-06T13:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。