論文の概要: C3Po: Cross-View Cross-Modality Correspondence by Pointmap Prediction
- arxiv url: http://arxiv.org/abs/2511.18559v1
- Date: Sun, 23 Nov 2025 18:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.899678
- Title: C3Po: Cross-View Cross-Modality Correspondence by Pointmap Prediction
- Title(参考訳): C3Po:ポイントマップ予測によるクロスビュー・クロスモーダル対応
- Authors: Kuan Wei Huang, Brandon Li, Bharath Hariharan, Noah Snavely,
- Abstract要約: 我々は,インターネット写真コレクションから3次元のシーンを構造化して構築した新しいデータセットC3を紹介する。
C3には90Kのフロアプランと写真、597のシーンに153Mピクセルレベルの対応と85Kカメラのポーズがある。
新しいデータをトレーニングすることで、RMSEで最高の性能を34%向上させることができる。
- 参考スコア(独自算出の注目度): 42.48637713067477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric models like DUSt3R have shown great advances in understanding the geometry of a scene from pairs of photos. However, they fail when the inputs are from vastly different viewpoints (e.g., aerial vs. ground) or modalities (e.g., photos vs. abstract drawings) compared to what was observed during training. This paper addresses a challenging version of this problem: predicting correspondences between ground-level photos and floor plans. Current datasets for joint photo--floor plan reasoning are limited, either lacking in varying modalities (VIGOR) or lacking in correspondences (WAFFLE). To address these limitations, we introduce a new dataset, C3, created by first reconstructing a number of scenes in 3D from Internet photo collections via structure-from-motion, then manually registering the reconstructions to floor plans gathered from the Internet, from which we can derive correspondence between images and floor plans. C3 contains 90K paired floor plans and photos across 597 scenes with 153M pixel-level correspondences and 85K camera poses. We find that state-of-the-art correspondence models struggle on this task. By training on our new data, we can improve on the best performing method by 34% in RMSE. We also identify open challenges in cross-modal geometric reasoning that our dataset aims to help address.
- Abstract(参考訳): DUSt3Rのような幾何学モデルは、一対の写真からシーンの幾何学を理解する上で大きな進歩を見せている。
しかし、入力が、トレーニング中に観察されたものと比較して、非常に異なる視点(例えば、空中対地上)またはモダリティ(例えば、写真対抽象図面)で失敗する。
本論文は、地上写真とフロアプランとの対応性を予測するという、この問題の挑戦的なバージョンに対処する。
共同フォトフロア計画推論のための現在のデータセットは、様々なモダリティ(VIGOR)が欠けているか、対応性(WAFFLE)が欠けているか、制限されている。
これらの制約に対処するために、我々はC3という新しいデータセットを導入し、まず、構造から移動してインターネット写真コレクションから複数のシーンを再構築し、次にインターネットから収集したフロアプランに手動で再構成を登録し、そこから画像とフロアプランの対応を導出する。
C3には90Kのフロアプランと写真、597のシーンに153Mピクセルレベルの対応と85Kカメラのポーズがある。
現状の対応モデルは、この課題に苦慮している。
新しいデータをトレーニングすることで、RMSEで最高の性能を34%向上させることができる。
また、我々のデータセットが対処することを目的とした、モーダルな幾何学的推論におけるオープンな課題を特定します。
関連論文リスト
- AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis [57.249817395828174]
本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。
擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:57:05Z) - FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching [69.81167130510333]
本研究では, 地上画像の3次元自由度ポーズを, 周囲の空中画像から推定する, 微粒なクロスビューローカライゼーション手法を提案する。
地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。
従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
論文 参考訳(メタデータ) (2025-03-24T14:34:20Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - SCENES: Subpixel Correspondence Estimation With Epipolar Supervision [18.648772607057175]
シーンの2つ以上のビューからポイント対応を抽出することは、基本的なコンピュータビジョンの問題である。
既存の局所的特徴マッチングアプローチは、大規模データセットの対応監視によって訓練され、テストセット上での高精度なマッチングを得る。
奥行きマップや点雲などの3次元構造を不要にすることで,この仮定を緩和する。
論文 参考訳(メタデータ) (2024-01-19T18:57:46Z) - 3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets [34.610546020800236]
3DMinerは、挑戦的なデータセットから3D形状をマイニングするためのパイプラインである。
本手法は最先端の教師なし3次元再構成技術よりもはるかに優れた結果が得られる。
LAION-5Bデータセットから得られる画像の形状を再構成することにより,3DMinerを組込みデータに適用する方法を示す。
論文 参考訳(メタデータ) (2023-10-29T23:08:19Z) - Learning Dense Correspondences between Photos and Sketches [6.2420740599184175]
人間は、スケッチと現実世界のオブジェクトの関連性を、たとえこれらのスケッチが現実的ではないとしても、しっかりと把握します。
我々は新しいスケッチ写真対応ベンチマークである$textitPSC6k$を導入し、125のオブジェクトカテゴリにわたる6250枚のスケッチ写真ペアの150Kアノテーションを含む。
次に,スケッチ・フォト・ペア間の密接な対応を学習するための自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:45:40Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。