論文の概要: Scene Grounding In the Wild
- arxiv url: http://arxiv.org/abs/2603.26584v1
- Date: Fri, 27 Mar 2026 16:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.598641
- Title: Scene Grounding In the Wild
- Title(参考訳): 野生の風景
- Authors: Tamir Cohen, Leo Segre, Shay Shomer-Chai, Shai Avidan, Hadar Averbuch-Elor,
- Abstract要約: 大規模な現実世界のシーンの正確な3Dモデルを、非構造的で、その中の画像から再構築することは、コンピュータビジョンにおける重要な課題である。
シーンの完全な参照モデルに各部分再構成を基礎とするフレームワークを提案する。
従来のパイプラインや学習ベースのパイプラインでは,我々のアプローチが一貫してグローバルアライメントを改善することを示す。
- 参考スコア(独自算出の注目度): 27.597534811067348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing accurate 3D models of large-scale real-world scenes from unstructured, in-the-wild imagery remains a core challenge in computer vision, especially when the input views have little or no overlap. In such cases, existing reconstruction pipelines often produce multiple disconnected partial reconstructions or erroneously merge non-overlapping regions into overlapping geometry. In this work, we propose a framework that grounds each partial reconstruction to a complete reference model of the scene, enabling globally consistent alignment even in the absence of visual overlap. We obtain reference models from dense, geospatially accurate pseudo-synthetic renderings derived from Google Earth Studio. These renderings provide full scene coverage but differ substantially in appearance from real-world photographs. Our key insight is that, despite this significant domain gap, both domains share the same underlying scene semantics. We represent the reference model using 3D Gaussian Splatting, augmenting each Gaussian with semantic features, and formulate alignment as an inverse feature-based optimization scheme that estimates a global 6DoF pose and scale while keeping the reference model fixed. Furthermore, we introduce the WikiEarth dataset, which registers existing partial 3D reconstructions with pseudo-synthetic reference models. We demonstrate that our approach consistently improves global alignment when initialized with various classical and learning-based pipelines, while mitigating failure modes of state-of-the-art end-to-end models. All code and data will be released.
- Abstract(参考訳): 大規模な現実世界のシーンの正確な3Dモデルを、構造化されていない、その中の画像から再構築することは、コンピュータビジョンにおいて、特に入力ビューがほとんど、あるいは全く重複していない場合において、中心的な課題である。
このような場合、既存の再建パイプラインは複数の非連結部分再構成を生成したり、誤って重複しない領域を重なり合う幾何学にマージする。
本研究では,シーンの完全な参照モデルに各部分再構成を基礎として,視覚的重なりがなくても一貫したアライメントを実現するフレームワークを提案する。
Google Earth Studioから得られた高密度かつ地理的に正確な擬似合成レンダリングから参照モデルを得る。
これらのレンダリングはシーン全体をカバーしているが、実際の写真とはかなり異なる。
この大きなドメインギャップにもかかわらず、両方のドメインは同じシーンセマンティクスを共有しています。
本稿では,3次元ガウススティングを用いて参照モデルを表現し,各ガウスに意味的特徴を付加し,参照モデルを固定しつつ,グローバルな6DoFのポーズとスケールを推定する逆特徴量に基づく最適化スキームとしてアライメントを定式化する。
さらに,既存の部分的3次元再構成を擬似合成参照モデルで登録するWikiEarthデータセットを導入する。
我々は、最先端のエンドツーエンドモデルの障害モードを緩和しながら、古典的および学習ベースのパイプラインを初期化する際のグローバルアライメントを一貫して改善することを示します。
すべてのコードとデータがリリースされる。
関連論文リスト
- RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations [70.83499963694238]
RnG(Reconstruction and Generation)は、再構成と生成を統合する新しいフィードフォワードトランスである。
可視的幾何学を再構築し、可視的でコヒーレントな不明瞭な幾何学と外観を生成する。
提案手法は, 一般化可能な3次元再構成と新しいビュー生成の両方において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T17:25:32Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。