論文の概要: VGGT-360: Geometry-Consistent Zero-Shot Panoramic Depth Estimation
- arxiv url: http://arxiv.org/abs/2603.18943v1
- Date: Thu, 19 Mar 2026 14:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.192225
- Title: VGGT-360: Geometry-Consistent Zero-Shot Panoramic Depth Estimation
- Title(参考訳): VGGT-360:Geometry-Consistent Zero-Shot Panoramic Depth Estimation
- Authors: Jiayi Yuan, Haobo Jiang, De Wen Soh, Na Zhao,
- Abstract要約: VGGT-360は、ゼロショットで幾何に一貫性のあるパノラマ深度推定のための訓練不要のフレームワークである。
VGGT-360は、マルチビュー再構成された3Dモデルに対するパノラマ再射としてタスクを再構成する。
3つのプラグイン・アンド・プレイモジュールを統合し、パノラマ・ツー・3D・トゥ・ディープス・フレームワークを統一する。
- 参考スコア(独自算出の注目度): 18.215186861036607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents VGGT-360, a novel training-free framework for zero-shot, geometry-consistent panoramic depth estimation. Unlike prior view-independent training-free approaches, VGGT-360 reformulates the task as panoramic reprojection over multi-view reconstructed 3D models by leveraging the intrinsic 3D consistency of VGGT-like foundation models, thereby unifying fragmented per-view reasoning into a coherent panoramic understanding. To achieve robust and accurate estimation, VGGT-360 integrates three plug-and-play modules that form a unified panorama-to-3D-to-depth framework: (i) Uncertainty-guided adaptive projection slices panoramas into perspective views to bridge the domain gap between panoramic inputs and VGGT's perspective prior. It estimates gradient-based uncertainty to allocate denser views to geometry-poor regions, yielding geometry-informative inputs for VGGT. (ii) Structure-saliency enhanced attention strengthens VGGT's robustness during 3D reconstruction by injecting structure-aware confidence into its attention layers, guiding focus toward geometrically reliable regions and enhancing cross-view coherence. (iii) Correlation-weighted 3D model correction refines the reconstructed 3D model by reweighting overlapping points using attention-inferred correlation scores, providing a consistent geometric basis for accurate panoramic reprojection. Extensive experiments show that VGGT-360 outperforms both trained and training-free state-of-the-art methods across multiple resolutions and diverse indoor and outdoor datasets.
- Abstract(参考訳): 本稿では,ゼロショット・ジオメトリ一貫性を持つパノラマ深度推定のための新しいトレーニングフリーフレームワークであるVGGT-360を提案する。
従来のビュー非依存のトレーニングフリーアプローチとは異なり、VGGT-360は、VGGTのような基礎モデルの本質的な3D整合性を利用して、マルチビュー再構成された3Dモデルに対するパノラマ再プロジェクションとしてタスクを再構成し、ビュー毎の断片化をコヒーレントなパノラマ理解に統一する。
堅牢で正確な推定を実現するため、VGGT-360は3つのプラグ・アンド・プレイモジュールを統合する。
i) 不確実性誘導適応プロジェクションスライスによりパノラマを視線に分割し,パノラマ入力とVGGTの視線との領域ギャップを埋める。
勾配に基づく不確かさを推定し、VGGTの幾何学的非形式的な入力を得られるように、より高密度なビューを幾何学的に貧弱な領域に割り当てる。
2)3次元再構成におけるVGGTのロバスト性は,構造意識の信頼度をその注意層に注入し,幾何的信頼性のある領域に焦点を向け,対面コヒーレンスを高めることによって強化される。
三 相関重み付き3次元モデル補正は、重み付き相関スコアを用いて重み付け点を再重み付けすることにより再構成された3次元モデルを洗練し、正確なパノラマ再投影のための一貫した幾何学的基礎を提供する。
大規模な実験により、VGGT-360は、複数の解像度と様々な屋内および屋外データセットにわたって、トレーニングとトレーニングなしの最先端の手法の両方に優れていたことが示されている。
関連論文リスト
- Pano360: Perspective to Panoramic Vision with Geometric Consistency [7.713672589538202]
我々は新しいトランスフォーマーベースのアーキテクチャを採用し、すべての視点で3D認識とグローバル情報を集約する。
評価ベンチマークを確立し,ネットワークをトレーニングするために,実世界のシーンの大規模データセットを構築した。
論文 参考訳(メタデータ) (2026-03-12T14:56:14Z) - RePer-360: Releasing Perspective Priors for 360$^\circ$ Depth Estimation via Self-Modulation [20.850233169948634]
視線画像に基づいてトレーニングされた最近の深度基礎モデルは、強い性能を実現するが、360$circ$画像に乏しく一般化する。
単分子パノラマ深さ推定のための歪みを考慮した自己変調フレームワークRePer-360を提案する。
RePer-360は、相補的な射影融合から、保存された事前訓練された視点下でのパノラマ領域適応に焦点を移すことで、標準的な微調整法を超越している。
論文 参考訳(メタデータ) (2026-03-06T07:58:53Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection [49.12928389918159]
既存の単分子3D検出器は典型的には、切り離された予測パラダイムを通じて、3D境界ボックスの顕著な非線形回帰をテームする。
本稿では2つの主成分を持つ新しい空間射影アライメント(SPAN)を提案する。
SPANは、予測された3次元境界ボックスと接地した3次元境界ボックスの間に明らかに大域的な空間的制約を課し、それによって非結合な特性回帰による空間的ドリフトを補正する。
3D-2Dプロジェクションアライメントは、投影された3Dボックスが、画像平面上の対応する2D検出バウンディングボックス内に密に整列していることを保証する。
論文 参考訳(メタデータ) (2025-11-10T04:48:48Z) - Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting [21.952325954391508]
本稿では、3DGSベースのフレームワークであるGesplatを紹介し、ロバストな新しいビュー合成と、未提示のスパース画像からの幾何的に一貫した再構成を可能にする。
提案手法は,他のポーズフリー手法と比較して,前方および大規模の複雑なデータセット上でより堅牢な性能を実現する。
論文 参考訳(メタデータ) (2025-10-11T08:13:46Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Joint stereo 3D object detection and implicit surface reconstruction [39.30458073540617]
本稿では,SO(3)の正確なオブジェクト指向を復元し,ステレオRGB画像から暗黙的な剛性形状を同時に予測できる学習ベースのフレームワークS-3D-RCNNを提案する。
方向推定のためには、局所的な外観を観測角度にマッピングする従来の研究とは対照的に、意味のある幾何学的表現(IGR)を抽出して進歩的なアプローチを提案する。
このアプローチは、知覚強度を1つか2つのビューからオブジェクト部分座標に変換するディープモデルにより、カメラ座標系において、直接自我中心のオブジェクト指向推定を実現する。
3次元境界ボックス内におけるより詳細な記述を実現するため,ステレオ画像からの暗黙的形状推定問題について検討する。
論文 参考訳(メタデータ) (2021-11-25T05:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。