論文の概要: SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Localization in Unseen Environments
- arxiv url: http://arxiv.org/abs/2404.10527v2
- Date: Mon, 22 Jul 2024 11:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 01:51:11.426521
- Title: SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Localization in Unseen Environments
- Title(参考訳): SPVLoc: 見知らぬ環境下での6次元カメラローカライゼーションのためのセマンティックパノラマビューポートマッチング
- Authors: Niklas Gard, Anna Hilsmann, Peter Eisert,
- Abstract要約: SPVLocは、クエリ画像の6Dカメラポーズを正確に決定するグローバル屋内ローカライズ手法である。
本手法では、視点カメラのビューポートをローカライズするために、新しいマッチング手法を用いる。
技術手法と比較して位置決め精度が優れており、カメラのポーズの自由度も高いと推定される。
- 参考スコア(独自算出の注目度): 4.2603120588176635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present SPVLoc, a global indoor localization method that accurately determines the six-dimensional (6D) camera pose of a query image and requires minimal scene-specific prior knowledge and no scene-specific training. Our approach employs a novel matching procedure to localize the perspective camera's viewport, given as an RGB image, within a set of panoramic semantic layout representations of the indoor environment. The panoramas are rendered from an untextured 3D reference model, which only comprises approximate structural information about room shapes, along with door and window annotations. We demonstrate that a straightforward convolutional network structure can successfully achieve image-to-panorama and ultimately image-to-model matching. Through a viewport classification score, we rank reference panoramas and select the best match for the query image. Then, a 6D relative pose is estimated between the chosen panorama and query image. Our experiments demonstrate that this approach not only efficiently bridges the domain gap but also generalizes well to previously unseen scenes that are not part of the training data. Moreover, it achieves superior localization accuracy compared to the state of the art methods and also estimates more degrees of freedom of the camera pose. Our source code is publicly available at https://fraunhoferhhi.github.io/spvloc .
- Abstract(参考訳): 本稿では,クエリ画像の6次元カメラポーズを正確に決定するグローバル屋内ローカライズ手法であるSPVLocについて述べる。
提案手法では,室内環境のパノラマ的セマンティックなレイアウト表現のセット内に,RGB画像として与えられる視点カメラのビューポートをローカライズする手法を用いている。
パノラマは、ドアや窓のアノテーションとともに、部屋の形状に関する近似的な構造情報のみを含む、テクスチャのない3D参照モデルから描画される。
簡単な畳み込みネットワーク構造により,画像からパノラマ,最終的には画像からモデルへのマッチングが実現可能であることを示す。
ビューポート分類スコアを用いて、参照パノラマをランク付けし、クエリ画像のベストマッチを選択する。
そして、選択したパノラマとクエリ画像との間に6D相対的なポーズを推定する。
我々の実験は、このアプローチがドメインギャップを効率的に橋渡しするだけでなく、トレーニングデータの一部ではない未確認シーンにもうまく一般化することを示した。
さらに、最先端の手法に比べて位置決め精度が優れており、カメラポーズの自由度も高いと見積もっている。
私たちのソースコードはhttps://fraunhoferhhi.github.io/spvloc で公開されています。
関連論文リスト
- FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - Global Localization: Utilizing Relative Spatio-Temporal Geometric
Constraints from Adjacent and Distant Cameras [7.836516315882875]
ロボット工学や拡張現実(AR)における多くのコンピュータビジョン応用において、以前にマッピングされた領域でカメラを単一の画像から再ローカライズすることが不可欠である。
本稿では,局所化のためのDeep Networkのトレーニングを指導するために,空間的および時間的制約の新たなネットワークを活用することを提案する。
提案手法は,これらの制約により,比較的少ないあるいは少ない地上3次元座標が利用できる場合に,局所化を学習できることを示す。
論文 参考訳(メタデータ) (2023-12-01T11:03:07Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - TopNet: Transformer-based Object Placement Network for Image Compositing [43.14411954867784]
背景画像の局所的な手がかりは、特定の位置/スケールにオブジェクトを置くことの互換性を決定するために重要である。
本稿では,トランスモジュールを用いてオブジェクト特徴とすべてのローカル背景特徴の相関関係を学習することを提案する。
我々の新しい定式化は、1つのネットワークフォワードパスにおけるすべての位置/スケールの組み合わせの妥当性を示す3Dヒートマップを生成する。
論文 参考訳(メタデータ) (2023-04-06T20:58:49Z) - MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文 参考訳(メタデータ) (2022-07-21T21:21:10Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z) - Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文 参考訳(メタデータ) (2020-06-25T21:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。