論文の概要: Evaluation of Visual Place Recognition Methods for Image Pair Retrieval in 3D Vision and Robotics
- arxiv url: http://arxiv.org/abs/2603.13917v1
- Date: Sat, 14 Mar 2026 12:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.486026
- Title: Evaluation of Visual Place Recognition Methods for Image Pair Retrieval in 3D Vision and Robotics
- Title(参考訳): 3次元視覚・ロボティクスにおける画像ペア検索のための視覚的位置認識手法の評価
- Authors: Dennis Haitz, Athradi Shritish Shetty, Michael Weinmann, Markus Ulrich,
- Abstract要約: 登録パイプラインのための画像ペア検索フロントエンドとして,視覚的位置認識(VPR)について検討する。
我々は,3つの挑戦的データセットを用いて,最先端のVPRファミリーを比較検討した。
- 参考スコア(独自算出の注目度): 6.59608906817608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) is a core component in computer vision, typically formulated as an image retrieval task for localization, mapping, and navigation. In this work, we instead study VPR as an image pair retrieval front-end for registration pipelines, where the goal is to find top-matching image pairs between two disjoint image sets for downstream tasks such as scene registration, SLAM, and Structure-from-Motion. We comparatively evaluate state-of-the-art VPR families - NetVLAD-style baselines, classification-based global descriptors (CosPlace, EigenPlaces), feature-mixing (MixVPR), and foundation-model-driven methods (AnyLoc, SALAD, MegaLoc) - on three challenging datasets: object-centric outdoor scenes (Tanks and Temples), indoor RGB-D scans (ScanNet-GS), and autonomous-driving sequences (KITTI). We show that modern global descriptor approaches are increasingly suitable as off-the-shelf image pair retrieval modules in challenging scenarios including perceptual aliasing and incomplete sequences, while exhibiting clear, domain-dependent strengths and weaknesses that are critical when choosing VPR components for robust mapping and registration.
- Abstract(参考訳): 視覚的位置認識(VPR)はコンピュータビジョンのコアコンポーネントであり、典型的には画像検索タスクとして画像のローカライゼーション、マッピング、ナビゲーションに使用される。
本研究では,VPRを画像ペア検索フロントエンドとして研究し,シーン登録,SLAM,Structure-from-Motionなどの下流タスクのための2つの不整合イメージセット間のトップマッチングイメージペアを見つけることを目的とする。
我々は、オブジェクト中心の屋外シーン(Tanks and Temples)、屋内RGB-Dスキャン(ScanNet-GS)、自律走行シーケンス(KITTI)の3つの課題データセットに基づいて、最先端のVPRファミリー(NetVLADスタイルのベースライン、分類ベースのグローバルディスクリプタ(CosPlace、EigenPlaces)、特徴混合(MixVPR)、基礎モデル駆動方式(AnyLoc、SALAD、MegaLoc)の評価を行った。
本稿では,VPR コンポーネントを頑健なマッピングと登録のために選択する場合に重要となる,ドメイン依存の強みと弱点を明確かつ証明しつつ,知覚的エイリアスや不完全なシーケンスを含む難解なシナリオにおいて,オフザシェルフイメージペア検索モジュールとして,現代のグローバルディスクリプタアプローチが適していることを示す。
関連論文リスト
- Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning [8.222080530754223]
画像に基づく形状検索(IBSR)は、クエリ画像が与えられたデータベースから3Dモデルを取得することを目的としている。
我々は、大規模マルチモーダル事前訓練を通じてIBSRに対処し、明確なビューベース監視は不要であることを示す。
論文 参考訳(メタデータ) (2026-03-07T01:54:35Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition [17.393105901701098]
本稿では、汎用データセット表現技術を用いて、堅牢な視覚的位置認識(VPR)記述子を生成する。
我々の実験は、我々の表現が、トレーニングデータ分布から真剣なドメインシフトへの現在の解決策よりも堅牢性を高めることができることを示している。
論文 参考訳(メタデータ) (2024-03-14T01:30:28Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [60.48134767838629]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - A Novel Image Descriptor with Aggregated Semantic Skeleton
Representation for Long-term Visual Place Recognition [0.0]
集合的意味骨格表現(SSR)を用いた新しい画像記述法を提案する。
1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。
我々は,挑戦的な都市景観の3つの公開データセットについて,一連の実験を行った。
論文 参考訳(メタデータ) (2022-02-08T06:49:38Z) - CORAL: Colored structural representation for bi-modal place recognition [12.357478978433814]
視覚とLiDARの2つのモードから複合グローバル記述子を抽出できるバイモーダル位置認識法を提案する。
具体的には,まず3次元点から生成された標高像を構造表現として構築する。
次に,3次元点と画像画素の対応関係を導出し,画素単位の視覚的特徴を高架マップグリッドにマージする。
論文 参考訳(メタデータ) (2020-11-22T04:51:40Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。