論文の概要: StereoVGGT: A Training-Free Visual Geometry Transformer for Stereo Vision
- arxiv url: http://arxiv.org/abs/2603.29368v1
- Date: Tue, 31 Mar 2026 07:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.258246
- Title: StereoVGGT: A Training-Free Visual Geometry Transformer for Stereo Vision
- Title(参考訳): StereoVGGT:ステレオビジョンのためのトレーニング不要なビジュアル幾何学変換器
- Authors: Ziyang Chen, Yansong Qu, You Shen, Xuan Cheng, Liujuan Cao,
- Abstract要約: Visual Geometry Grounded Transformer (VGGT)は、カメラのポーズを含む広範囲な3Dプリエントで事前訓練された基礎モデルとして機能する。
本稿ではステレオビジョンに特化した機能バックボーンであるStereoVGGTを提案する。
- 参考スコア(独自算出の注目度): 37.95373405958899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by the advancement of 3D devices, stereo vision tasks including stereo matching and stereo conversion have emerged as a critical research frontier. Contemporary stereo vision backbones typically rely on either monocular depth estimation (MDE) models or visual foundation models (VFMs). Crucially, these models are predominantly pretrained without explicit supervision of camera poses. Given that such geometric knowledge is indispensable for stereo vision, the absence of explicit spatial constraints constitutes a significant performance bottleneck for existing architectures. Recognizing that the Visual Geometry Grounded Transformer (VGGT) operates as a foundation model pretrained on extensive 3D priors, including camera poses, we investigate its potential as a robust backbone for stereo vision tasks. Nevertheless, empirical results indicate that its direct application to stereo vision yields suboptimal performance. We observe that VGGT suffers from a more significant degradation of geometric details during feature extraction. Such characteristics conflict with the requirements of binocular stereo vision, thereby constraining its efficacy for relative tasks. To bridge this gap, we propose StereoVGGT, a feature backbone specifically tailored for stereo vision. By leveraging the frozen VGGT and introducing a training-free feature adjustment pipeline, we mitigate geometric degradation and harness the latent camera calibration knowledge embedded within the model. StereoVGGT-based stereo matching network achieved the $1^{st}$ rank among all published methods on the KITTI benchmark, validating that StereoVGGT serves as a highly effective backbone for stereo vision.
- Abstract(参考訳): 3Dデバイスの進歩により、ステレオマッチングやステレオ変換といったステレオビジョンタスクが重要な研究フロンティアとして登場した。
現代のステレオビジョンのバックボーンは通常、単眼深度推定(MDE)モデルまたは視覚基礎モデル(VFM)のいずれかに依存している。
重要な点として、これらのモデルはカメラのポーズを明示的に監督することなく、主に事前訓練されている。
このような幾何学的知識がステレオビジョンにとって不可欠であることを考えると、明示的な空間的制約が存在しないことは、既存のアーキテクチャにとって重要なパフォーマンスボトルネックとなっている。
VGGT (Visual Geometry Grounded Transformer) が、カメラポーズを含む広範囲な3D事前訓練による基礎モデルとして機能していることを認識し、ステレオビジョンタスクの堅牢なバックボーンとしての可能性について検討する。
それでも、ステレオビジョンへの直接適用が準最適性能をもたらすことを示す実験結果が得られた。
我々は,VGGTが特徴抽出中に幾何的詳細のより顕著な劣化に悩まされていることを観察した。
このような特徴は両眼立体視の要求と矛盾し、相対的なタスクに対する有効性を制限する。
このギャップを埋めるために、ステレオビジョンに特化した機能バックボーンであるStereoVGGTを提案する。
凍結したVGGTを活用して、トレーニング不要な特徴調整パイプラインを導入することにより、幾何劣化を緩和し、モデル内に埋め込まれた潜在カメラキャリブレーションの知識を活用する。
StereoVGGTをベースとしたステレオマッチングネットワークは、KITTIベンチマークで発表されたすべてのメソッドの中で1^{st}$ランクを達成し、ステレオビジョンの非常に効果的なバックボーンとしてStereoVGGTが機能することを検証する。
関連論文リスト
- Stereo World Model: Camera-Guided Stereo Video Generation [52.3922115596956]
本稿では、ステレオビデオ生成のための外観と両眼形状を共同で学習するカメラコンディショニングステレオワールドモデルであるStereoWorldを紹介する。
単分子RGBやRGBDのアプローチとは異なり、StereoWorldはRGBモードでのみ動作する。
論文 参考訳(メタデータ) (2026-03-18T05:42:22Z) - StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision [20.470652428992338]
ステレオカメラは人間の両眼視を忠実に模倣し、精密なロボット操作に欠かせない空間的手がかりを提供する。
アドバンテージにもかかわらず、視覚言語アクションモデル(VLA)におけるステレオビジョンの採用はいまだ検討されていない。
本稿では立体視からリッチな幾何学的手がかりを利用するVLAモデルであるStereoVLAを提案する。
論文 参考訳(メタデータ) (2025-12-26T10:34:20Z) - Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision [13.586199223564273]
単眼視と中級視線を無視することは非効率であることを示す。
ステレオ入力と深度推定や高密度画素追跡などの明快な中間レベルビジョンでNFMを増強するStereoWalkerを提案する。
中間レベルのビジョンによって、StereoWalkerはトレーニングデータのわずか1.5%を使用して最先端のパフォーマンスを達成でき、フルデータを使用して最先端のデータを上回ります。
論文 参考訳(メタデータ) (2025-12-11T18:59:56Z) - OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer [48.16706802780516]
一般的な3Dファウンデーションモデルは、多様なビジョンタスクの統合のトレンドを導い始めている。
OmniVGTは、トレーニングと推論の両方において、任意の数の補助モダリティを効果的に活用できる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-13T17:59:01Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。