論文の概要: AIR-HLoc: Adaptive Retrieved Images Selection for Efficient Visual Localisation
- arxiv url: http://arxiv.org/abs/2403.18281v2
- Date: Tue, 17 Sep 2024 03:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 22:20:44.248620
- Title: AIR-HLoc: Adaptive Retrieved Images Selection for Efficient Visual Localisation
- Title(参考訳): AIR-HLoc: 効率的な視覚局所化のための適応的検索画像選択
- Authors: Changkun Liu, Jianhao Jiao, Huajian Huang, Zhengyang Ma, Dimitrios Kanoulas, Tristan Braud,
- Abstract要約: 最先端の階層的ローカライゼーションパイプライン(HLOC)は2D-3D対応を確立するために画像検索(IR)を使用している。
本稿では,グローバルディスクリプタとローカルディスクリプタの関係について検討する。
本稿では,クエリのグローバルな記述子とデータベース内の記述子との類似性に基づいて$k$を調整する適応型戦略を提案する。
- 参考スコア(独自算出の注目度): 8.789742514363777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art hierarchical localisation pipelines (HLoc) employ image retrieval (IR) to establish 2D-3D correspondences by selecting the top-$k$ most similar images from a reference database. While increasing $k$ improves localisation robustness, it also linearly increases computational cost and runtime, creating a significant bottleneck. This paper investigates the relationship between global and local descriptors, showing that greater similarity between the global descriptors of query and database images increases the proportion of feature matches. Low similarity queries significantly benefit from increasing $k$, while high similarity queries rapidly experience diminishing returns. Building on these observations, we propose an adaptive strategy that adjusts $k$ based on the similarity between the query's global descriptor and those in the database, effectively mitigating the feature-matching bottleneck. Our approach optimizes processing time without sacrificing accuracy. Experiments on three indoor and outdoor datasets show that AIR-HLoc reduces feature matching time by up to 30\%, while preserving state-of-the-art accuracy. The results demonstrate that AIR-HLoc facilitates a latency-sensitive localisation system.
- Abstract(参考訳): State-of-the-the-arthierarchical Localisation pipelines (HLoc) は、2D-3D対応を確立するために画像検索(IR)を使用している。
k$の増加はローカライゼーションの堅牢性を改善する一方で、計算コストとランタイムをリニアに増加させ、重大なボトルネックを生み出します。
本稿では,グローバルデクリプタとローカルデクリプタの関係について検討し,クエリのグローバルデクリプタとデータベースイメージとの類似性が,特徴マッチングの割合を増大させることを示す。
類似度が低いクエリは$k$の増加の恩恵を受け、類似度の高いクエリは急速にリターンの低下を経験する。
これらの観測に基づいて,クエリのグローバル記述子とデータベースの類似性に基づいて$k$を調整し,機能マッチングボトルネックを効果的に軽減する適応戦略を提案する。
提案手法は精度を犠牲にすることなく処理時間を最適化する。
3つの屋内および屋外データセットの実験により、AIR-HLocは、最先端の精度を維持しながら、特徴マッチング時間を最大30倍まで短縮することが示された。
その結果,AIR-HLocは遅延に敏感なローカライゼーションシステムを実現することがわかった。
関連論文リスト
- Breaking the Frame: Image Retrieval by Visual Overlap Prediction [53.17564423756082]
本稿では,隠蔽や複雑なシーンを効果的に扱う新しい視覚的位置認識手法,VOPを提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Multi-Spectral Remote Sensing Image Retrieval Using Geospatial Foundation Models [0.562479170374811]
この研究は、PrithviのようなGeospatial Foundation Modelsをリモートセンシング画像検索に使用することを提案している。
検索タスクに2つのデータセットを導入し、高い性能を観察する。
Prithviは6つのバンドを処理し、平均精度はBigEarthNet-43で97.62%、フォレストNet-12で44.51%に達する。
論文 参考訳(メタデータ) (2024-03-04T14:00:45Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text
Retrieval [85.28292877465353]
本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。
具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
論文 参考訳(メタデータ) (2022-05-24T14:32:57Z) - Beyond ANN: Exploiting Structural Knowledge for Efficient Place
Recognition [8.121462458089143]
オンラインで適用可能な効率的な位置認識のための新しい高速シーケンスベースの方法を提案する。
提案手法は,2つの最先端手法と,多くの場合,フル画像比較に優れる。
論文 参考訳(メタデータ) (2021-03-15T13:10:57Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z) - Improving Calibration in Deep Metric Learning With Cross-Example Softmax [11.014197662964335]
我々は,トップ$kとしきい値の関係性を組み合わせたクロスサンプルソフトマックスを提案する。
各イテレーションにおいて、提案された損失は、すべてのクエリがすべての非マッチングイメージよりも、すべてのクエリが一致するイメージに近づくことを奨励する。
これにより、世界規模で校正された類似度メートル法が導き出され、距離は関連性の絶対測度としてより解釈可能である。
論文 参考訳(メタデータ) (2020-11-17T18:47:28Z) - Permuted AdaIN: Reducing the Bias Towards Global Statistics in Image
Classification [97.81205777897043]
近年の研究では、畳み込みニューラルネットワーク分類器は形状を犠牲にしてテクスチャを過度に依存していることが示されている。
一方、形状と局所像の区別は類似しているが異なるが、一方、グローバル画像統計は異なる。
提案手法は,pAdaIN (Permuted Adaptive Instance Normalization) と呼ばれ,画像分類器の隠蔽層におけるグローバル統計の表現を減少させる。
論文 参考訳(メタデータ) (2020-10-09T16:38:38Z) - Compositional Learning of Image-Text Query for Image Retrieval [3.9348884623092517]
画像検索のための画像とテキストクエリの合成を学習するための自動エンコーダベースモデルComposeAEを提案する。
我々は、深層メトリック学習アプローチを採用し、ソース画像とテキストクエリの合成をターゲット画像に近づけるメトリクスを学習する。
論文 参考訳(メタデータ) (2020-06-19T14:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。