論文の概要: Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective
- arxiv url: http://arxiv.org/abs/2512.21691v1
- Date: Thu, 25 Dec 2025 14:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 20:48:41.928046
- Title: Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective
- Title(参考訳): ダイナミクスから見たVGGTの注意崩壊機構の解析
- Authors: Huan Li, Longjun Luo, Yuling Shi, Xiaodong Gu,
- Abstract要約: Visual Geometry Grounded Transformer (VGGT)は、最先端のフィードフォワード3D再構成を提供する。
グローバルな自己保持層は、入力シーケンスが数百フレームを超えると、劇的な崩壊現象に悩まされる。
我々は,グローバルアテンションを退化拡散過程と見なして,崩壊の厳密な数学的説明を確立する。
- 参考スコア(独自算出の注目度): 13.434698786044107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Geometry Grounded Transformer (VGGT) delivers state-of-the-art feed-forward 3D reconstruction, yet its global self-attention layer suffers from a drastic collapse phenomenon when the input sequence exceeds a few hundred frames: attention matrices rapidly become near rank-one, token geometry degenerates to an almost one-dimensional subspace, and reconstruction error accumulates super-linearly.In this report,we establish a rigorous mathematical explanation of the collapse by viewing the global-attention iteration as a degenerate diffusion process.We prove that,in VGGT, the token-feature flow converges toward a Dirac-type measure at a $O(1/L)$ rate, where $L$ is the layer index, yielding a closed-form mean-field partial differential equation that precisely predicts the empirically observed rank profile.The theory quantitatively matches the attention-heat-map evolution and a series of experiments outcomes reported in relevant works and explains why its token-merging remedy -- which periodically removes redundant tokens -- slows the effective diffusion coefficient and thereby delays collapse without additional training.We believe the analysis provides a principled lens for interpreting future scalable 3D-vision transformers,and we highlight its potential for multi-modal generalization.
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT) は、最先端のフィードフォワード3D再構成を行うが、入力シーケンスが数百フレームを超えると、そのグローバルな自己保持層は劇的な崩壊現象に苦しむ: 注意行列が急速にランク1に近づき、トークン幾何学がほぼ1次元のサブスペースに縮退し、再構成エラーが超直線的に蓄積する 本稿では、グローバルアテンション反復を縮退拡散過程として見ることによって、崩壊の厳密な数学的説明を確立する。
関連論文リスト
- Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction [45.25461515976432]
画像再構成のための強力なパラダイムとして,DP(Plug-and-Play diffusion prior)フレームワークが登場した。
本稿では, バイアス・ハロシン化トレードオフを解消し, 収束を著しく加速した最先端の勾配を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2026-02-26T16:58:43Z) - From Circuits to Dynamics: Understanding and Stabilizing Failure in 3D Diffusion Transformers [25.11520870904882]
3次元拡散変圧器は破滅的な障害のモードを示す。
私たちはこの現象をメルトダウンと呼ぶ。
スパース・ポイント・クラウド・コンディショニングを安定化するテスト時間制御であるPowerRemapを導入する。
論文 参考訳(メタデータ) (2026-02-11T18:42:05Z) - TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Hierarchical Attention for Sparse Volumetric Anomaly Detection in Subclinical Keratoconus [0.0]
階層アーキテクチャーは21~23%の感度と特異性を実現します。
力学解析は、この利点が空間スケールのアライメントから生じることを示唆している。
サブクリニカルケースは、健康的または過剰な病理学的ボリュームよりも長い空間的な統合を必要とする。
論文 参考訳(メタデータ) (2025-12-03T01:20:13Z) - Learning Time-Varying Graphs from Incomplete Graph Signals [1.7430416823420511]
グラフから欠落したデータを出力する問題を解くために,効率的な交互方向乗算アルゴリズムを開発した。
提案したADMMスキームが収束し,定常点を導出することを示す。
論文 参考訳(メタデータ) (2025-10-19T11:12:13Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers [3.686808512438363]
ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。
我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。
外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - Rank Collapse Causes Over-Smoothing and Over-Correlation in Graph Neural Networks [3.566568169425391]
深さが大きくなると、ノード表現はアグリゲーション関数に依存するが特徴変換には依存しない低次元部分空間に支配されることが示される。
すべてのアグリゲーション関数について、ノード表現のランクは崩壊し、特定のアグリゲーション関数に対して過度に滑らかになる。
論文 参考訳(メタデータ) (2023-08-31T15:22:31Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。