Fugu-MT 論文翻訳(概要): PanoVPR: Towards Unified Perspective-to-Equirectangular Visual Place Recognition via Sliding Windows across the Panoramic View

論文の概要: PanoVPR: Towards Unified Perspective-to-Equirectangular Visual Place Recognition via Sliding Windows across the Panoramic View

arxiv url: http://arxiv.org/abs/2303.14095v1
Date: Fri, 24 Mar 2023 16:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 13:52:25.874832
Title: PanoVPR: Towards Unified Perspective-to-Equirectangular Visual Place Recognition via Sliding Windows across the Panoramic View
Title（参考訳）: パノVPR:パノラマを横切るスライディングウインドウによる一様視界から等角視界認識を目指して
Authors: Ze Shi, Hao Shi, Kailun Yang, Zhe Yin, Yining Lin, Kaiwei Wang
Abstract要約: PanoVPR(パノVPR)は、スライディングウインドウをベースとしたP2Eの視覚的位置認識フレームワークである。等方形の全体像と計算に窓を滑り込ませることによって、固い刈り取りによって生じる特徴的乱れを解消する。 pitts250k-P2Eデータセットを pitts250k から抽出し,有望な結果を得た。
参考スコア（独自算出の注目度）: 7.239471193536139
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual place recognition has received increasing attention in recent years as a key technology in autonomous driving and robotics. The current mainstream approaches use either the perspective view retrieval perspective view (P2P) paradigm or the equirectangular image retrieval equirectangular image (E2E) paradigm. However, a natural and practical idea is that users only have consumer-grade pinhole cameras to obtain query perspective images and retrieve them in panoramic database images from map providers. To this end, we propose PanoVPR, a sliding-window-based perspective-to-equirectangular (P2E) visual place recognition framework, which eliminates feature truncation caused by hard cropping by sliding windows over the whole equirectangular image and computing and comparing feature descriptors between windows. In addition, this unified framework allows for directly transferring the network structure used in perspective-to-perspective (P2P) methods without modification. To facilitate training and evaluation, we derive the pitts250k-P2E dataset from the pitts250k and achieve promising results, and we also establish a P2E dataset in a real-world scenario by a mobile robot platform, which we refer to YQ360. Code and datasets will be made available at https://github.com/zafirshi/PanoVPR.
Abstract（参考訳）: 近年、視覚位置認識は自動運転とロボット工学の重要な技術として注目を集めている。現在の主流のアプローチは、視点ビュー検索視点ビュー(P2P)パラダイムまたは等方形画像検索等方形画像(E2E)パラダイムを使用する。しかし、自然で実践的なアイデアは、ユーザーはクエリパースペクティブの画像を取得し、地図プロバイダからパノラマデータベースイメージで取得するために、消費者級のピンホールカメラしか持っていないということである。そこで我々はPanoVPR (P2E) を提案する。PanoVPRは、平板上をスライドするウィンドウと、ウィンドウ間の特徴記述子を比較することで、ハードクロップによる特徴トランケーションを解消する、スライドウインドウに基づく視界-等角形(P2E)視覚位置認識フレームワークである。さらに、この統一フレームワークは、p2p(perspective-to-perspective)メソッドで使用されるネットワーク構造を変更せずに直接転送することができる。トレーニングと評価を容易にするため,pits250kからpits250k-P2Eデータセットを抽出し,有望な結果を得るとともに,モバイルロボットプラットフォームによる現実シナリオにおけるP2Eデータセットも構築する。コードとデータセットはhttps://github.com/zafirshi/PanoVPR.comで公開される。

関連論文リスト

Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting [20.14129939772052]
自動運転のための最初のパノラマ生成法Percep360を提案する。 Percep360は、縫合されたパノラマデータに基づく制御信号によるパノラマデータのコヒーレントな生成を可能にする。生成した画像の有効性を3つの視点から評価した。
論文参考訳（メタデータ） (2025-07-09T16:01:41Z)
Panoramic Out-of-Distribution Segmentation [28.962062029634584]
我々は,パノラマのためのOoSを実現する新しいタスクであるパノラマアウト・オブ・ディストリビューション(PanOoS)を導入する。 POSはテキスト誘導の即時分布学習によりパノラマ画像の特徴に適応する。 AuPRCは34.25%向上し、FPR95は21.42%低下した。
論文参考訳（メタデータ） (2025-05-06T13:51:26Z)
RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。 RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文参考訳（メタデータ） (2024-12-17T09:47:48Z)
Open Panoramic Segmentation [34.46596562350091]
我々は,FoV制限されたピンホール画像をオープン語彙設定でトレーニングする,Open Panoramic (OPS) と呼ばれる新しいタスクを提案する。また,DAN (Deformable Adapter Network) を用いた OOOPS モデルを提案し,パノラマセマンティックセマンティックセマンティクスの性能を大幅に向上させる。他の最先端のオープンボキャブラリセマンティックセマンティクスアプローチを超越すると、3つのパノラマデータセットのパフォーマンスが著しく向上する。
論文参考訳（メタデータ） (2024-07-02T22:00:32Z)
Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。 VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文参考訳（メタデータ） (2024-06-23T20:00:20Z)
BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。 BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文参考訳（メタデータ） (2024-03-11T10:46:43Z)
I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through Bird's Eye View Projections [18.7557037030769]
位置認識は、完全な自律性を達成するための、自動運転車にとって重要な技術である。クロスモーダルデータを同じモダリティに変換することで,I2P-Rec法を提案する。トレーニングデータの小さなセットだけで、I2P-Recはポイントクラウドマップ上のモノクロ画像とステレオ画像のローカライズ時に、80%と90%でトップ1%のリコール率を達成する。
論文参考訳（メタデータ） (2023-03-02T07:56:04Z)
BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。 BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文参考訳（メタデータ） (2023-02-28T05:37:45Z)
Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文参考訳（メタデータ） (2022-07-25T00:42:38Z)
Panoptic-PartFormer: Learning a Unified Model for Panoptic Part Segmentation [76.9420522112248]
Panoptic Part (PPS) は、汎視的セグメンテーションと部分セグメンテーションをひとつのタスクに統合することを目的としている。そこで我々はPanoptic-PartFormerというエンドツーエンド統合手法を設計した。私たちのPanoptic-PartFormerは、Cityscapes PPSとPascal Context PPSデータセットの両方で、最先端の新たな結果を実現しています。
論文参考訳（メタデータ） (2022-04-10T11:16:45Z)
SBEVNet: End-to-End Deep Stereo Layout Estimation [13.749997863293347]
一対のステレオ画像から鳥の視線レイアウトを推定するためのSBEVNet(Stereo Bird's Eye ViewNetwork)を紹介した。本研究では,良質な内野鳥の視線特徴表現の学習がレイアウト推定に有効であることを示す。
論文参考訳（メタデータ） (2021-05-25T07:10:30Z)
Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文参考訳（メタデータ） (2021-03-11T03:35:05Z)
Panoramic Panoptic Segmentation: Towards Complete Surrounding Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。完全な周囲の理解は、エージェントに最大限の情報を提供する。標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-01T09:37:27Z)
Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。 PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-06-20T10:19:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。