論文の概要: 3DoF Localization from a Single Image and an Object Map: the Flatlandia
Problem and Dataset
- arxiv url: http://arxiv.org/abs/2304.06373v4
- Date: Wed, 8 Nov 2023 14:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:17:27.165758
- Title: 3DoF Localization from a Single Image and an Object Map: the Flatlandia
Problem and Dataset
- Title(参考訳): 単一画像とオブジェクトマップからの3DoFローカライゼーション:フラットランド問題とデータセット
- Authors: Matteo Toso, Matteo Taiana, Stuart James and Alessio Del Bue
- Abstract要約: 本稿では,新しい視覚的ローカライゼーション課題であるFlatlandiaを提案する。
地図内の対象の既知の空間的レイアウトに対して検出された共通オブジェクトのレイアウトを比較することで、視覚的クエリーをローカライズできるかどうかを検討する。
それぞれに対して,初期ベースラインモデルを提案し,最先端の6DoF法と3DoF法と比較する。
- 参考スコア(独自算出の注目度): 20.986848597435728
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient visual localization is crucial to many applications, such as
large-scale deployment of autonomous agents and augmented reality. Traditional
visual localization, while achieving remarkable accuracy, relies on extensive
3D models of the scene or large collections of geolocalized images, which are
often inefficient to store and to scale to novel environments. In contrast,
humans orient themselves using very abstract 2D maps, using the location of
clearly identifiable landmarks. Drawing on this and on the success of recent
works that explored localization on 2D abstract maps, we propose Flatlandia, a
novel visual localization challenge. With Flatlandia, we investigate whether it
is possible to localize a visual query by comparing the layout of its common
objects detected against the known spatial layout of objects in the map. We
formalize the challenge as two tasks at different levels of accuracy to
investigate the problem and its possible limitations; for each, we propose
initial baseline models and compare them against state-of-the-art 6DoF and 3DoF
methods. Code and dataset are publicly available at
github.com/IIT-PAVIS/Flatlandia.
- Abstract(参考訳): 効率的な視覚的ローカライゼーションは、自律エージェントの大規模展開や拡張現実など、多くのアプリケーションにとって不可欠である。
従来の視覚的ローカライゼーションは、顕著な精度を達成する一方で、シーンの広範囲な3Dモデルや、ジオローカライズされた画像の大規模なコレクションに依存している。
対照的に、人間は非常に抽象的な2dマップを使い、はっきりと識別できるランドマークの場所を使っている。
これに基づいて、2次元抽象地図上の局所化を探求する最近の研究の成功に基づき、新しい視覚的局所化課題であるFlatlandiaを提案する。
flatlandiaでは,マップ内の既知の空間レイアウトに対して検出された共通オブジェクトのレイアウトを比較することにより,視覚的クエリをローカライズできるかどうかを検討する。
課題を異なる精度で2つのタスクとして定式化し,問題とその限界について検討し,それぞれについて初期ベースラインモデルを提案し,最先端の6dof法と3dof法と比較する。
コードとデータセットはgithub.com/IIT-PAVIS/Flatlandiaで公開されている。
関連論文リスト
- Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Image-based Geolocalization by Ground-to-2.5D Map Matching [21.21416396311102]
地上視のクエリ画像と2Dマップをマッチングするために、クロスビューのローカライゼーション技術を利用することが多い。
マルチモーダルデータから代表埋め込みを学習するための新しい手法を提案する。
本手法は,重要な幾何学的手がかりを符号化することにより,パノラマ画像と地図のマッチングのための識別的位置埋め込みを学習する。
論文 参考訳(メタデータ) (2023-08-11T08:00:30Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - ViTOL: Vision Transformer for Weakly Supervised Object Localization [0.735996217853436]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのカテゴリラベルのみを用いて、画像内のオブジェクト位置を予測することを目的としている。
画像分類モデルがローカライズ対象の場合に遭遇する一般的な課題は、(a) ローカライズマップを非常に小さな領域に限定する画像において最も識別性の高い特徴を見る傾向にあり、(b) ローカライズマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトする。
論文 参考訳(メタデータ) (2022-04-14T06:16:34Z) - CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization [44.97567243883994]
クラウドソースデータを用いた屋外シーンにおける視覚的位置推定のための新しいベンチマークを提案する。
私たちのデータセットは非常に困難で、評価されたすべてのメソッドが最も難しい部分で失敗していることが示されています。
データセットリリースの一部として、私たちはそれを生成するために使用されるツールを提供し、効率的で効果的な2D対応アノテーションを可能にします。
論文 参考訳(メタデータ) (2021-09-09T19:25:48Z) - Learning Cross-Scale Visual Representations for Real-Time Image
Geo-Localization [21.375640354558044]
局所センサに基づく状態推定手法は、誤差が蓄積されるにつれて長距離ミッションがドリフトする傾向にある。
クロススケールなデータセットと、クロスモダリティソースから追加データを生成する手法を紹介する。
本稿では,監督なしに大規模視覚表現を学習するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T08:08:54Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。