論文の概要: HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2506.04764v1
- Date: Thu, 05 Jun 2025 08:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.612133
- Title: HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition
- Title(参考訳): HypeVPR: 等角的視覚位置認識のための双曲空間の探索
- Authors: Suhan Woo, Seongwon Lee, Jinwoo Jang, Euntai Kim,
- Abstract要約: 双曲空間における新しい階層的埋め込みフレームワークであるHypeVPRを紹介する。
HypeVPRは、P2E(point-to-equirectangular VPR)の独特な課題に対処するために設計された。
- 参考スコア(独自算出の注目度): 16.46501527058266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When applying Visual Place Recognition (VPR) to real-world mobile robots and similar applications, perspective-to-equirectangular (P2E) formulation naturally emerges as a suitable approach to accommodate diverse query images captured from various viewpoints. In this paper, we introduce HypeVPR, a novel hierarchical embedding framework in hyperbolic space, designed to address the unique challenges of P2E VPR. The key idea behind HypeVPR is that visual environments captured by panoramic views exhibit inherent hierarchical structures. To leverage this property, we employ hyperbolic space to represent hierarchical feature relationships and preserve distance properties within the feature space. To achieve this, we propose a hierarchical feature aggregation mechanism that organizes local-to-global feature representations within hyperbolic space. Additionally, HypeVPR adopts an efficient coarse-to-fine search strategy, optimally balancing speed and accuracy to ensure robust matching, even between descriptors from different image types. This approach enables HypeVPR to outperform state-of-the-art methods while significantly reducing retrieval time, achieving up to 5x faster retrieval across diverse benchmark datasets. The code and models will be released at https://github.com/suhan-woo/HypeVPR.git.
- Abstract(参考訳): 実世界の移動ロボットや他のアプリケーションに視覚的位置認識(VPR)を適用すると、様々な視点から捉えた多様なクエリ画像に適合する適切なアプローチとして、視点から等角形(P2E)の定式化が自然に現れる。
本稿では,P2E VPRの独特な課題に対処するために,双曲空間における新しい階層的埋め込みフレームワークであるHypeVPRを紹介する。
HypeVPRの背景にある重要な考え方は、パノラマビューで捉えた視覚環境が固有の階層構造を示すことである。
この特性を利用するために、双曲空間を用いて階層的特徴関係を表現し、特徴空間内の距離特性を保存する。
これを実現するために,双曲空間内の局所的-言語的特徴表現を整理する階層的特徴集約機構を提案する。
さらに、HypeVPRは効率のよい粗い検索戦略を採用し、速度と精度を最適にバランスさせ、異なる画像タイプの記述子の間でも堅牢なマッチングを保証する。
このアプローチにより、HypeVPRは最先端の手法より優れ、検索時間が大幅に短縮され、多様なベンチマークデータセットで最大5倍高速な検索が可能になる。
コードとモデルはhttps://github.com/suhan-woo/HypeVPR.gitで公開される。
関連論文リスト
- Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - EDTformer: An Efficient Decoder Transformer for Visual Place Recognition [34.875097011568336]
視覚的位置認識(VPR)は、クエリ画像の一般的な地理的位置を決定することを目的としている。
特徴集約のための効率的なデコーダ変換器(EDTformer)を提案する。
EDTformerは、深い機能の中でコンテキスト情報を十分に活用できます。
論文 参考訳(メタデータ) (2024-12-01T12:14:36Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - AnyLoc: Towards Universal Visual Place Recognition [12.892386791383025]
視覚的位置認識(VPR)は、ロボットのローカライゼーションに不可欠である。
ほとんどの性能の高いVPRアプローチは環境に特化しており、タスクに特化している。
私たちは、VPRの普遍的なソリューションを開発します -- 幅広い構造化された、非構造化された環境にわたって機能するテクニックです。
論文 参考訳(メタデータ) (2023-08-01T17:45:13Z) - MixVPR: Feature Mixing for Visual Place Recognition [3.6739949215165164]
視覚的場所認識(VPR)は、モバイルロボティクスと自律運転の重要な部分である。
我々は,事前学習したバックボーンから特徴マップをグローバルな特徴の集合として取り出す,新しい総合的特徴集約技術であるMixVPRを紹介する。
複数の大規模ベンチマークで広範な実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-03T19:24:03Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - STA-VPR: Spatio-temporal Alignment for Visual Place Recognition [17.212503755962757]
画像間の距離を計測しながら空間領域から局所的な特徴を整列する適応動的時間ウォーピングアルゴリズムを提案する。
時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTWアルゴリズムを適用した。
その結果,提案手法はcnnに基づく手法を大幅に改善した。
論文 参考訳(メタデータ) (2021-03-25T03:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。