論文の概要: On Geometric Understanding and Learned Data Priors in VGGT
- arxiv url: http://arxiv.org/abs/2512.11508v1
- Date: Fri, 12 Dec 2025 12:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.760555
- Title: On Geometric Understanding and Learned Data Priors in VGGT
- Title(参考訳): VGGTにおける幾何学的理解と先行学習について
- Authors: Jelena Bratulić, Sudhanshu Mittal, Thomas Brox, Christian Rupprecht,
- Abstract要約: Visual Geometry Grounded Transformer (VGGT) は、カメラ形状とシーン構造を単一のフィードフォワードパスで推論する3次元基礎モデルである。
本稿では,VGGTの内部機構を体系的に解析し,幾何学的理解が表現の中に現れるかどうかを明らかにする。
- 参考スコア(独自算出の注目度): 38.8968170074396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Visual Geometry Grounded Transformer (VGGT) is a 3D foundation model that infers camera geometry and scene structure in a single feed-forward pass. Trained in a supervised, single-step fashion on large datasets, VGGT raises a key question: does it build upon geometric concepts like traditional multi-view methods, or does it rely primarily on learned appearance-based data-driven priors? In this work, we conduct a systematic analysis of VGGT's internal mechanisms to uncover whether geometric understanding emerges within its representations. By probing intermediate features, analyzing attention patterns, and performing interventions, we examine how the model implements its functionality. Our findings reveal that VGGT implicitly performs correspondence matching within its global attention layers and encodes epipolar geometry, despite being trained without explicit geometric constraints. We further investigate VGGT's dependence on its learned data priors. Using spatial input masking and perturbation experiments, we assess its robustness to occlusions, appearance variations, and camera configurations, comparing it with classical multi-stage pipelines. Together, these insights highlight how VGGT internalizes geometric structure while using learned data-driven priors.
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT) は、カメラ形状とシーン構造を単一のフィードフォワードパスで推論する3次元基礎モデルである。
大規模なデータセット上で教師付きシングルステップでトレーニングされたVGGTは、重要な疑問を提起する。従来のマルチビューメソッドのような幾何学的概念に基づいて構築されているのか、あるいは、主に学習された外観ベースのデータ駆動の事前に依存しているのか?
本研究では,VGGTの内部機構を体系的に解析し,幾何学的理解が表現の中に現れるかどうかを明らかにする。
中間的特徴の探索,注意パターンの分析,介入の実施により,モデルが機能をどのように実装するかを検討する。
以上の結果から,VGGTは暗黙的にグローバルアテンション層内で対応し,明示的な幾何学的制約を伴わずにトレーニングを受けたにもかかわらず,エピポーラ幾何学を符号化していることが明らかとなった。
さらに,VGGTの学習データに対する依存度についても検討する。
空間的入力マスキングと摂動実験を用いて、オクルージョン、外観変化、カメラ構成に対するロバスト性を評価し、古典的なマルチステージパイプラインと比較した。
これらの知見は、VGGTが学習したデータ駆動の先行データを使用しながら、幾何学構造を内部化する方法を強調している。
関連論文リスト
- Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - Analyzing Deep Transformer Models for Time Series Forecasting via Manifold Learning [4.910937238451485]
トランスフォーマーモデルは、自然言語処理やコンピュータビジョンといった様々な領域において、一貫して顕著な成果を上げてきた。
これらのモデルをよりよく理解するための継続的な研究努力にもかかわらず、この分野はいまだに包括的な理解を欠いている。
画像やテキスト情報とは異なり、時系列データは解釈し分析することがより困難である。
論文 参考訳(メタデータ) (2024-10-17T17:32:35Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Graph Signal Processing for Geometric Data and Beyond: Theory and
Applications [55.81966207837108]
グラフ信号処理(GSP)は、不規則な領域に存在する処理信号を可能にする。
GSP法は、幾何データとグラフの接続をブリッジすることで、統一的に幾何データに対する手法である。
最近開発されたグラフニューラルネットワーク(GNN)は、GSPの観点からこれらのネットワークの動作を解釈している。
論文 参考訳(メタデータ) (2020-08-05T03:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。