論文の概要: AIR-HLoc: Adaptive Image Retrieval for Efficient Visual Localisation
- arxiv url: http://arxiv.org/abs/2403.18281v1
- Date: Wed, 27 Mar 2024 06:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:16:31.382081
- Title: AIR-HLoc: Adaptive Image Retrieval for Efficient Visual Localisation
- Title(参考訳): AIR-HLoc: 効率的な視覚的ローカライゼーションのための適応的画像検索
- Authors: Changkun Liu, Huajian Huang, Zhengyang Ma, Tristan Braud,
- Abstract要約: 最先端の階層的ローカライゼーションパイプライン(HLOC)は、2D-3D対応を確立するために画像検索(IR)技術に依存している。
本稿では,参照データベースとの類似性に基づいて,クエリ画像を異なる局所化困難度に分割する新しいアプローチであるAIR-HLocを提案する。
- 参考スコア(独自算出の注目度): 5.279268784803583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art (SOTA) hierarchical localisation pipelines (HLoc) rely on image retrieval (IR) techniques to establish 2D-3D correspondences by selecting the $k$ most similar images from a reference image database for a given query image. Although higher values of $k$ enhance localisation robustness, the computational cost for feature matching increases linearly with $k$. In this paper, we observe that queries that are the most similar to images in the database result in a higher proportion of feature matches and, thus, more accurate positioning. Thus, a small number of images is sufficient for queries very similar to images in the reference database. We then propose a novel approach, AIR-HLoc, which divides query images into different localisation difficulty levels based on their similarity to the reference image database. We consider an image with high similarity to the reference image as an easy query and an image with low similarity as a hard query. Easy queries show a limited improvement in accuracy when increasing $k$. Conversely, higher values of $k$ significantly improve accuracy for hard queries. Given the limited improvement in accuracy when increasing $k$ for easy queries and the significant improvement for hard queries, we adapt the value of $k$ to the query's difficulty level. Therefore, AIR-HLoc optimizes processing time by adaptively assigning different values of $k$ based on the similarity between the query and reference images without losing accuracy. Our extensive experiments on the Cambridge Landmarks, 7Scenes, and Aachen Day-Night-v1.1 datasets demonstrate our algorithm's efficacy, reducing 30\%, 26\%, and 11\% in computational overhead while maintaining SOTA accuracy compared to HLoc with fixed image retrieval.
- Abstract(参考訳): State-of-the-art (SOTA) 階層的ローカライゼーションパイプライン (HLOC) は、所定のクエリ画像に対して参照画像データベースから$k$の類似画像を選択することで、2D-3D対応を確立するために、画像検索 (IR) 技術に依存している。
より高い$k$は局所化ロバスト性を高めるが、特徴マッチングの計算コストは$k$と直線的に増加する。
本稿では,データベース内の画像に最もよく似たクエリが特徴マッチングの比率が高くなり,より正確な位置決めが可能となることを観察する。
したがって、参照データベース内の画像と非常によく似たクエリには、少数の画像が十分である。
提案手法は,参照画像データベースとの類似性に基づいて,クエリ画像を異なる局所化困難度に分割する手法であるAIR-HLocを提案する。
参照画像との類似性が高い画像は簡単なクエリであり、類似性が低い画像はハードクエリであると考えている。
簡単なクエリは、$k$を増やせば、精度が制限される。
逆に$k$の値が高いと、ハードクエリの精度が大幅に向上する。
簡単なクエリに対する$k$の増加と、ハードクエリに対する大幅な改善により、クエリの難易度レベルに$k$の値を適用することができる。
したがって、AIR-HLocは、クエリと参照画像の類似性に基づいて$k$の異なる値を、精度を損なうことなく適応的に割り当てることで、処理時間を最適化する。
Cambridge Landmarks, 7Scenes, Aachen Day-Night-v1.1データセットに関する広範な実験は、固定画像検索のHLOCと比較してSOTA精度を維持しながら、30\%、26\%、11\%の計算オーバーヘッドを削減し、アルゴリズムの有効性を示した。
関連論文リスト
- FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [57.59857784298536]
直接2D-3Dマッチングアルゴリズムでは、メモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。
本研究では,2次元3次元探索フレームワーク内の重み付き平均演算子を用いて局所的およびグローバルな記述子を融合させることにより,この曖昧さに対処する。
ローカルのみのシステムの精度を常に改善し、メモリ要求を半減させながら階層的な手法に近い性能を達成する。
論文 参考訳(メタデータ) (2024-08-21T23:42:16Z) - Local positional graphs and attentive local features for a data and runtime-efficient hierarchical place recognition pipeline [11.099588962062937]
本稿では,既存のアプローチを拡張し,新しいアイデアを提示する,ランタイムとデータ効率のよい階層型VPRパイプラインを提案する。
まず,ローカル画像の特徴の空間的コンテキスト情報を符号化する学習不要かつ実行効率のよいアプローチであるローカル位置グラフ(LPG)を提案する。
第2に,アテンタティブ・ローカルSPED(Attentive Local SPED)について述べる。
第3に,超次元計算を利用した階層型パイプラインを提案し,高速な候補選択と候補再評価のために,全体的HDC記述子と同じ局所的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-15T13:26:39Z) - Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Efficient Match Pair Retrieval for Large-scale UAV Images via Graph
Indexed Global Descriptor [9.402103660431791]
本稿では,効率的なマッチングペア検索手法を提案し,並列SfM再構成のための統合ワークフローを実装した。
提案手法は3つの大規模データセットを用いて検証されている。
論文 参考訳(メタデータ) (2023-07-10T12:41:55Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - iSimLoc: Visual Global Localization for Previously Unseen Environments
with Simulated Images [21.43167626240771]
本稿では,一貫した階層的グローバル再ローカライズ手法iSimLocを提案する。
iSimLocの配置機能は、外観や視点の変化の下でターゲット画像の検索に利用することができる。
本研究では,長期飛行における大規模マッチングの実証に焦点をあてた,外観変化のある1つのデータセットと1つのデータセットについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-14T02:40:50Z) - Rethinking Dilated Convolution for Real-time Semantic Segmentation [0.0]
背骨全体に大きな拡張率を持つ拡張畳み込みを用いて異なるアプローチをとる。
我々のモデルであるRegSegは、リアルタイムのCityscapesとCamVidデータセットの競合的な結果を達成する。
論文 参考訳(メタデータ) (2021-11-18T22:08:21Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。