論文の概要: Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective
- arxiv url: http://arxiv.org/abs/2512.21691v1
- Date: Thu, 25 Dec 2025 14:34:27 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:33.138949
- Title: Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective
- Title(参考訳): ダイナミクスから見たVGGTの注意崩壊機構の解析
- Authors: Huan Li, Longjun Luo, Yuling Shi, Xiaodong Gu,
- Abstract要約: Visual Geometry Grounded Transformer (VGGT)は、最先端のフィードフォワード3D再構成を提供する。
グローバルな自己保持層は、入力シーケンスが数百フレームを超えると、劇的な崩壊現象に悩まされる。
我々は,グローバルアテンションを退化拡散過程と見なして,崩壊の厳密な数学的説明を確立する。
- 参考スコア(独自算出の注目度): 13.434698786044107
- License:
- Abstract: Visual Geometry Grounded Transformer (VGGT) delivers state-of-the-art feed-forward 3D reconstruction, yet its global self-attention layer suffers from a drastic collapse phenomenon when the input sequence exceeds a few hundred frames: attention matrices rapidly become near rank-one, token geometry degenerates to an almost one-dimensional subspace, and reconstruction error accumulates super-linearly.In this report,we establish a rigorous mathematical explanation of the collapse by viewing the global-attention iteration as a degenerate diffusion process.We prove that,in VGGT, the token-feature flow converges toward a Dirac-type measure at a $O(1/L)$ rate, where $L$ is the layer index, yielding a closed-form mean-field partial differential equation that precisely predicts the empirically observed rank profile.The theory quantitatively matches the attention-heat-map evolution and a series of experiments outcomes reported in relevant works and explains why its token-merging remedy -- which periodically removes redundant tokens -- slows the effective diffusion coefficient and thereby delays collapse without additional training.We believe the analysis provides a principled lens for interpreting future scalable 3D-vision transformers,and we highlight its potential for multi-modal generalization.
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT) は、最先端のフィードフォワード3D再構成を行うが、入力シーケンスが数百フレームを超えると、そのグローバルな自己保持層は劇的な崩壊現象に苦しむ: 注意行列が急速にランク1に近づき、トークン幾何学がほぼ1次元のサブスペースに縮退し、再構成エラーが超直線的に蓄積する 本稿では、グローバルアテンション反復を縮退拡散過程として見ることによって、崩壊の厳密な数学的説明を確立する。
関連論文リスト
- Hierarchical Attention for Sparse Volumetric Anomaly Detection in Subclinical Keratoconus [0.0]
階層アーキテクチャーは21~23%の感度と特異性を実現します。
力学解析は、この利点が空間スケールのアライメントから生じることを示唆している。
サブクリニカルケースは、健康的または過剰な病理学的ボリュームよりも長い空間的な統合を必要とする。
論文 参考訳(メタデータ) (2025-12-03T01:20:13Z) - Learning Time-Varying Graphs from Incomplete Graph Signals [1.7430416823420511]
グラフから欠落したデータを出力する問題を解くために,効率的な交互方向乗算アルゴリズムを開発した。
提案したADMMスキームが収束し,定常点を導出することを示す。
論文 参考訳(メタデータ) (2025-10-19T11:12:13Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Rank Collapse Causes Over-Smoothing and Over-Correlation in Graph Neural Networks [3.566568169425391]
深さが大きくなると、ノード表現はアグリゲーション関数に依存するが特徴変換には依存しない低次元部分空間に支配されることが示される。
すべてのアグリゲーション関数について、ノード表現のランクは崩壊し、特定のアグリゲーション関数に対して過度に滑らかになる。
論文 参考訳(メタデータ) (2023-08-31T15:22:31Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。