論文の概要: PanoVPR: Towards Unified Perspective-to-Equirectangular Visual Place
Recognition via Sliding Windows across the Panoramic View
- arxiv url: http://arxiv.org/abs/2303.14095v2
- Date: Fri, 28 Jul 2023 04:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:01:35.970653
- Title: PanoVPR: Towards Unified Perspective-to-Equirectangular Visual Place
Recognition via Sliding Windows across the Panoramic View
- Title(参考訳): パノVPR:パノラマを横切るスライディングウインドウによる一様視界から等角視界認識を目指して
- Authors: Ze Shi, Hao Shi, Kailun Yang, Zhe Yin, Yining Lin, Kaiwei Wang
- Abstract要約: スライドウィンドウを用いたP2E視覚的位置認識フレームワークであるtextitPanoVPRを提案する。
具体的には、PanoVPRは、正方形全体にわたってウィンドウをスライドさせ、各ウィンドウの特徴記述子を計算し、それを比較して場所の類似性を決定する。
- 参考スコア(独自算出の注目度): 7.239471193536139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition has gained significant attention in recent years as
a crucial technology in autonomous driving and robotics. Currently, the two
main approaches are the perspective view retrieval (P2P) paradigm and the
equirectangular image retrieval (E2E) paradigm. However, it is practical and
natural to assume that users only have consumer-grade pinhole cameras to obtain
query perspective images and retrieve them in panoramic database images from
map providers. To address this, we propose \textit{PanoVPR}, a
perspective-to-equirectangular (P2E) visual place recognition framework that
employs sliding windows to eliminate feature truncation caused by hard
cropping. Specifically, PanoVPR slides windows over the entire equirectangular
image and computes feature descriptors for each window, which are then compared
to determine place similarity. Notably, our unified framework enables direct
transfer of the backbone from P2P methods without any modification, supporting
not only CNNs but also Transformers. To facilitate training and evaluation, we
derive the Pitts250k-P2E dataset from the Pitts250k and establish YQ360, latter
is the first P2E visual place recognition dataset collected by a mobile robot
platform aiming to simulate real-world task scenarios better. Extensive
experiments demonstrate that PanoVPR achieves state-of-the-art performance and
obtains 3.8% and 8.0% performance gain on Pitts250k-P2E and YQ360 compared to
the previous best method, respectively. Code and datasets will be publicly
available at https://github.com/zafirshi/PanoVPR.
- Abstract(参考訳): 近年、視覚位置認識は自動運転とロボット工学において重要な技術として注目されている。
現在、ビュービュー検索(P2P)パラダイムと等方形画像検索(E2E)パラダイムの2つの主要なアプローチがある。
しかし、利用者が検索視点画像を取得し、地図提供者からパノラマデータベース画像で検索するために、消費者級のピンホールカメラのみを持っていると仮定するのは、実用的で自然なことである。
そこで本研究では,スライディングウインドウを用いてハードトリッピングによる機能停止を解消した,p2e視覚位置認識フレームワークである \textit{panovpr} を提案する。
具体的には、panovprは等角形画像全体にわたってウィンドウをスライドさせ、各ウィンドウの機能記述子を計算する。
特に、当社の統一フレームワークは、cnnだけでなくトランスフォーマーもサポートし、変更することなく、p2pメソッドからのバックボーンの直接転送を可能にします。
訓練と評価を容易にするため,pits250kからpits250k-p2eデータセットを導出し,yq360を確立した。
パノVPRはPitts250k-P2EとYQ360でそれぞれ3.8%と8.0%の性能向上を達成した。
コードとデータセットはhttps://github.com/zafirshi/PanoVPR.comで公開されている。
関連論文リスト
- Open Panoramic Segmentation [34.46596562350091]
我々は,FoV制限されたピンホール画像をオープン語彙設定でトレーニングする,Open Panoramic (OPS) と呼ばれる新しいタスクを提案する。
また,DAN (Deformable Adapter Network) を用いた OOOPS モデルを提案し,パノラマセマンティックセマンティックセマンティクスの性能を大幅に向上させる。
他の最先端のオープンボキャブラリセマンティックセマンティクスアプローチを超越すると、3つのパノラマデータセットのパフォーマンスが著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T22:00:32Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文 参考訳(メタデータ) (2024-03-11T10:46:43Z) - I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through
Bird's Eye View Projections [18.7557037030769]
位置認識は、完全な自律性を達成するための、自動運転車にとって重要な技術である。
クロスモーダルデータを同じモダリティに変換することで,I2P-Rec法を提案する。
トレーニングデータの小さなセットだけで、I2P-Recはポイントクラウドマップ上のモノクロ画像とステレオ画像のローカライズ時に、80%と90%でトップ1%のリコール率を達成する。
論文 参考訳(メタデータ) (2023-03-02T07:56:04Z) - BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View
Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。
BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。
そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文 参考訳(メタデータ) (2023-02-28T05:37:45Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Panoptic-PartFormer: Learning a Unified Model for Panoptic Part
Segmentation [76.9420522112248]
Panoptic Part (PPS) は、汎視的セグメンテーションと部分セグメンテーションをひとつのタスクに統合することを目的としている。
そこで我々はPanoptic-PartFormerというエンドツーエンド統合手法を設計した。
私たちのPanoptic-PartFormerは、Cityscapes PPSとPascal Context PPSデータセットの両方で、最先端の新たな結果を実現しています。
論文 参考訳(メタデータ) (2022-04-10T11:16:45Z) - SBEVNet: End-to-End Deep Stereo Layout Estimation [13.749997863293347]
一対のステレオ画像から鳥の視線レイアウトを推定するためのSBEVNet(Stereo Bird's Eye ViewNetwork)を紹介した。
本研究では,良質な内野鳥の視線特徴表現の学習がレイアウト推定に有効であることを示す。
論文 参考訳(メタデータ) (2021-05-25T07:10:30Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-20T10:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。