論文の概要: Emergent Extreme-View Geometry in 3D Foundation Models
- arxiv url: http://arxiv.org/abs/2511.22686v1
- Date: Thu, 27 Nov 2025 18:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.681192
- Title: Emergent Extreme-View Geometry in 3D Foundation Models
- Title(参考訳): 3次元基礎モデルにおける創発的エクストリームビュー幾何学
- Authors: Yiwen Zhang, Joseph Tung, Ruojin Cai, David Fouhey, Hadar Averbuch-Elor,
- Abstract要約: 3Dファウンデーションモデル(3DFM)は、最近3Dビジョンを変換し、画像から直接深度、ポーズ、ポイントマップの合同予測を可能にした。
内部表現について検討し、3DFMは、そのような条件下では訓練されないにもかかわらず、極視的幾何学の創発的な理解を示すことを発見した。
バックボーンバイアス項の小さな部分のみを調整し,デコーダの頭部を凍結させて内部の3次元表現を改良する軽量アライメント方式を提案する。
既存の3DFMでは見えない新しいインターネットシーンのベンチマークであるMegaUnSceneにコントリビュートする。
- 参考スコア(独自算出の注目度): 26.53730031068199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D foundation models (3DFMs) have recently transformed 3D vision, enabling joint prediction of depths, poses, and point maps directly from images. Yet their ability to reason under extreme, non-overlapping views remains largely unexplored. In this work, we study their internal representations and find that 3DFMs exhibit an emergent understanding of extreme-view geometry, despite never being trained for such conditions. To further enhance these capabilities, we introduce a lightweight alignment scheme that refines their internal 3D representation by tuning only a small subset of backbone bias terms, leaving all decoder heads frozen. This targeted adaptation substantially improves relative pose estimation under extreme viewpoints without degrading per-image depth or point quality. Additionally, we contribute MegaUnScene, a new benchmark of Internet scenes unseen by existing 3DFMs, with dedicated test splits for both relative pose estimation and dense 3D reconstruction. All code and data will be released.
- Abstract(参考訳): 3Dファウンデーションモデル(3DFM)は、最近3Dビジョンを変換し、画像から直接深度、ポーズ、ポイントマップの合同予測を可能にした。
しかし、極端な、重複しない見解を推論する能力は、まだほとんど解明されていない。
本研究では, 内部表現について検討し, 3次元FMは, このような条件下では訓練されないにもかかわらず, 極端な視線幾何学の創発的な理解を示すことを示した。
これらの機能をさらに強化するために、バックボーンバイアス項の小さな部分だけをチューニングし、すべてのデコーダヘッドを凍結させることにより、内部の3D表現を洗練する軽量アライメント方式を導入する。
このターゲット適応は、画像毎の深さや点品質を劣化させることなく、極端視点下での相対的なポーズ推定を大幅に改善する。
さらに、既存の3DFMでは見えない新しいインターネットシーンのベンチマークであるMegaUnSceneに、相対的なポーズ推定と密集した3D再構成のための専用のテスト分割を提供する。
すべてのコードとデータがリリースされる。
関連論文リスト
- Learning A Zero-shot Occupancy Network from Vision Foundation Models via Self-supervised Adaptation [41.98740330990215]
本研究は,2次元視覚基礎モデルと3次元タスクをブリッジする新しい手法を提案する。
視覚言語モデルのゼロショット機能を画像意味論に活用する。
我々は、再構成されたメートル法深度を用いて意味を3次元空間に投影し、3次元の監視を行う。
論文 参考訳(メタデータ) (2025-03-10T09:54:40Z) - DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction [67.13370009386635]
そこで,Dual Point Map (DualPM)を導入し,同じ画像一点関連画素からオブジェクト上の3D位置へ,残りのポーズでオブジェクトの標準バージョンへ,一対の点マップを抽出する。
3次元再構成と3次元ポーズ推定はDualPMの予測に還元できることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:59:48Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Structured 3D Features for Reconstructing Controllable Avatars [43.36074729431982]
パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。
本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
論文 参考訳(メタデータ) (2022-12-13T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。