論文の概要: Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization?
- arxiv url: http://arxiv.org/abs/2507.18881v1
- Date: Fri, 25 Jul 2025 01:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.791719
- Title: Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization?
- Title(参考訳): 高次元からの展望:3次元幾何学的優先順位は視覚的フロアプランの定位に役立つか?
- Authors: Bolei Chen, Jiaxu Kang, Haonan Yang, Ping Zhong, Jianxin Wang,
- Abstract要約: 建物のフロアプランの自己ローカライズは研究者の興味を引き付けている。
フロアプランは建物の構造を最小限に表現するので、視覚的知覚とフロアプランの様相や幾何学的差異がこの課題に挑戦する。
既存の手法では、2次元幾何学的特徴とポーズフィルタを巧みに利用して有望な性能を実現する。
本稿では,2次元フロアプランの局所化問題を視覚的FLOCアルゴリズムに3次元幾何学的先行点を注入することにより高次元から考察する。
- 参考スコア(独自算出の注目度): 8.82283453148819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since a building's floorplans are easily accessible, consistent over time, and inherently robust to changes in visual appearance, self-localization within the floorplan has attracted researchers' interest. However, since floorplans are minimalist representations of a building's structure, modal and geometric differences between visual perceptions and floorplans pose challenges to this task. While existing methods cleverly utilize 2D geometric features and pose filters to achieve promising performance, they fail to address the localization errors caused by frequent visual changes and view occlusions due to variously shaped 3D objects. To tackle these issues, this paper views the 2D Floorplan Localization (FLoc) problem from a higher dimension by injecting 3D geometric priors into the visual FLoc algorithm. For the 3D geometric prior modeling, we first model geometrically aware view invariance using multi-view constraints, i.e., leveraging imaging geometric principles to provide matching constraints between multiple images that see the same points. Then, we further model the view-scene aligned geometric priors, enhancing the cross-modal geometry-color correspondences by associating the scene's surface reconstruction with the RGB frames of the sequence. Both 3D priors are modeled through self-supervised contrastive learning, thus no additional geometric or semantic annotations are required. These 3D priors summarized in extensive realistic scenes bridge the modal gap while improving localization success without increasing the computational burden on the FLoc algorithm. Sufficient comparative studies demonstrate that our method significantly outperforms state-of-the-art methods and substantially boosts the FLoc accuracy. All data and code will be released after the anonymous review.
- Abstract(参考訳): 建物のフロアプランは、時間とともに容易にアクセス可能であり、視覚的外観の変化に対して本質的に堅牢であるため、フロアプラン内の自己局在は研究者の興味を引き付けている。
しかしながら、フロアプランは建物の構造を最小限に表現するので、視覚的知覚とフロアプランの様相と幾何学的差異は、この課題に課題をもたらす。
既存の手法では、2次元の幾何学的特徴を巧みに利用し、フィルタをポーズさせて有望な性能を達成するが、視覚的な頻繁な変化や様々な形状の3Dオブジェクトによる閉塞による局所化誤差に対処できない。
これらの課題に対処するために,視覚的FLOCアルゴリズムに3次元幾何先行を注入することにより,2次元フロアプラン局所化(FLOC)問題を高次元から考察する。
3次元幾何学的事前モデリングでは、まず、多視点制約(つまり、画像幾何学の原理を活用して同じ点を見ることができる複数の画像間の整合性制約を与える)を用いて、幾何学的に認識される視点不変性をモデル化する。
さらに、シーンの表面再構成とシーケンスのRGBフレームを関連付けることで、ビューシーン整列した幾何学的先行をモデル化し、クロスモーダル幾何色対応を強化する。
どちらも自己教師付きコントラスト学習によってモデル化されており、幾何学的・意味的なアノテーションは不要である。
これらの3D先行画像は、FLOCアルゴリズムの計算負担を増大させることなく、局所化の成功を向上しながら、様相ギャップを橋渡しする広範囲な現実的なシーンで要約されている。
その結果,本手法は最先端手法を著しく上回り,FLOC精度を大幅に向上させることがわかった。
匿名のレビューの後、すべてのデータとコードはリリースされます。
関連論文リスト
- Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.36303976374455]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何や知覚をシームレスに統合する新しい手法を提案する。
提案手法の高忠実度化を実証し, 新規なビュー合成法と3次元再構成法とを比較検討した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent
Text-to-3D [40.088688751115214]
事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。
昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。
提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-04T05:59:50Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。