論文の概要: Inside Out Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2111.13546v1
- Date: Fri, 26 Nov 2021 15:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 17:26:32.397482
- Title: Inside Out Visual Place Recognition
- Title(参考訳): 視覚的な位置認識の内部
- Authors: Sarah Ibrahimi, Nanne van Noord, Tim Alpherts, Marcel Worring
- Abstract要約: Inside Out Visual Place Recognition (IOVPR) は、窓から見える屋外シーンに基づいて画像をローカライズすることを目的としたタスクである。
我々はアムステルダムで撮影された640万のパノラマストリートビュー画像と1000人のユーザ生成屋内クエリからなる大規模なデータセットであるアムステルダム-XXXLを提案する。
提案するデータ拡張スキームのメリットを小規模で実証的に示すとともに,この大規模データセットの既存手法の難しさを実証する。
- 参考スコア(独自算出の注目度): 16.931596317898816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) is generally concerned with localizing outdoor
images. However, localizing indoor scenes that contain part of an outdoor scene
can be of large value for a wide range of applications. In this paper, we
introduce Inside Out Visual Place Recognition (IOVPR), a task aiming to
localize images based on outdoor scenes visible through windows. For this task
we present the new large-scale dataset Amsterdam-XXXL, with images taken in
Amsterdam, that consists of 6.4 million panoramic street-view images and 1000
user-generated indoor queries. Additionally, we introduce a new training
protocol Inside Out Data Augmentation to adapt Visual Place Recognition methods
for localizing indoor images, demonstrating the potential of Inside Out Visual
Place Recognition. We empirically show the benefits of our proposed data
augmentation scheme on a smaller scale, whilst demonstrating the difficulty of
this large-scale dataset for existing methods. With this new task we aim to
encourage development of methods for IOVPR. The dataset and code are available
for research purposes at https://github.com/saibr/IOVPR
- Abstract(参考訳): 視覚位置認識 (vpr) は一般に屋外画像のローカライズに関係している。
しかしながら、屋外シーンの一部を含む屋内シーンのローカライズは、幅広い用途において大きな価値を持つ可能性がある。
本稿では,窓から見える屋外シーンに基づく画像のローカライズを目的としたタスクであるinside out visual place recognition(iovpr)を紹介する。
このタスクのために、アムステルダムで撮影された640万のパノラマストリートビューイメージと1000人のユーザ生成屋内クエリからなる、新しい大規模なデータセットであるアムステルダムXXXLを提示する。
さらに、屋内画像のローカライズのための視覚的位置認識手法を適用し、内外空間認識の可能性を示すための、新たなトレーニングプロトコルであるInside Out Data Augmentationを導入する。
提案するデータ拡張スキームのメリットを小規模で実証的に示すとともに,この大規模データセットの既存手法の難しさを実証する。
この新たな課題は、IOVPRの手法開発を促進することを目的としている。
データセットとコードは研究目的でhttps://github.com/saibr/iovprで利用可能である。
関連論文リスト
- EigenPlaces: Training Viewpoint Robust Models for Visual Place
Recognition [22.98403243270106]
EigenPlacesと呼ばれる新しい手法を提案し、異なる視点からの画像に基づいてニューラルネットワークをトレーニングする。
基本的な考え方は、トレーニングデータをクラスタ化して、同じ関心点の異なるビューでモデルを明示的に提示することだ。
文献における最も包括的なデータセットのセットに関する実験を行い、EigenPlacesは、ほとんどのデータセットにおいて、過去の最先端の技術を上回ることができることを示した。
論文 参考訳(メタデータ) (2023-08-21T16:27:31Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View
Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。
BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。
そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文 参考訳(メタデータ) (2023-02-28T05:37:45Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization [44.97567243883994]
クラウドソースデータを用いた屋外シーンにおける視覚的位置推定のための新しいベンチマークを提案する。
私たちのデータセットは非常に困難で、評価されたすべてのメソッドが最も難しい部分で失敗していることが示されています。
データセットリリースの一部として、私たちはそれを生成するために使用されるツールを提供し、効率的で効果的な2D対応アノテーションを可能にします。
論文 参考訳(メタデータ) (2021-09-09T19:25:48Z) - Large-scale Localization Datasets in Crowded Indoor Spaces [23.071409425965772]
実世界の挑戦的環境における視覚的位置決めのための新しい5つの屋内データセットを紹介した。
韓国のソウルにある大型ショッピングモールと大都市圏の駅で捕獲された。
地上の真理カメラの正確なポーズを得るために,ロバストなLiDAR SLAMを開発した。
論文 参考訳(メタデータ) (2021-05-19T06:20:49Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z) - Robust Image Retrieval-based Visual Localization using Kapture [10.249293519246478]
視覚的ローカライゼーションのための多用途パイプラインを提案する。
8つの公開データセットで評価し、それらが上位にランクされ、その多くが上位にランクされている。
今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-07-27T21:10:35Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。