論文の概要: AIR-HLoc: Adaptive Image Retrieval for Efficient Visual Localisation
- arxiv url: http://arxiv.org/abs/2403.18281v1
- Date: Wed, 27 Mar 2024 06:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:16:31.382081
- Title: AIR-HLoc: Adaptive Image Retrieval for Efficient Visual Localisation
- Title(参考訳): AIR-HLoc: 効率的な視覚的ローカライゼーションのための適応的画像検索
- Authors: Changkun Liu, Huajian Huang, Zhengyang Ma, Tristan Braud,
- Abstract要約: 最先端の階層的ローカライゼーションパイプライン(HLOC)は、2D-3D対応を確立するために画像検索(IR)技術に依存している。
本稿では,参照データベースとの類似性に基づいて,クエリ画像を異なる局所化困難度に分割する新しいアプローチであるAIR-HLocを提案する。
- 参考スコア(独自算出の注目度): 5.279268784803583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art (SOTA) hierarchical localisation pipelines (HLoc) rely on image retrieval (IR) techniques to establish 2D-3D correspondences by selecting the $k$ most similar images from a reference image database for a given query image. Although higher values of $k$ enhance localisation robustness, the computational cost for feature matching increases linearly with $k$. In this paper, we observe that queries that are the most similar to images in the database result in a higher proportion of feature matches and, thus, more accurate positioning. Thus, a small number of images is sufficient for queries very similar to images in the reference database. We then propose a novel approach, AIR-HLoc, which divides query images into different localisation difficulty levels based on their similarity to the reference image database. We consider an image with high similarity to the reference image as an easy query and an image with low similarity as a hard query. Easy queries show a limited improvement in accuracy when increasing $k$. Conversely, higher values of $k$ significantly improve accuracy for hard queries. Given the limited improvement in accuracy when increasing $k$ for easy queries and the significant improvement for hard queries, we adapt the value of $k$ to the query's difficulty level. Therefore, AIR-HLoc optimizes processing time by adaptively assigning different values of $k$ based on the similarity between the query and reference images without losing accuracy. Our extensive experiments on the Cambridge Landmarks, 7Scenes, and Aachen Day-Night-v1.1 datasets demonstrate our algorithm's efficacy, reducing 30\%, 26\%, and 11\% in computational overhead while maintaining SOTA accuracy compared to HLoc with fixed image retrieval.
- Abstract(参考訳): State-of-the-art (SOTA) 階層的ローカライゼーションパイプライン (HLOC) は、所定のクエリ画像に対して参照画像データベースから$k$の類似画像を選択することで、2D-3D対応を確立するために、画像検索 (IR) 技術に依存している。
より高い$k$は局所化ロバスト性を高めるが、特徴マッチングの計算コストは$k$と直線的に増加する。
本稿では,データベース内の画像に最もよく似たクエリが特徴マッチングの比率が高くなり,より正確な位置決めが可能となることを観察する。
したがって、参照データベース内の画像と非常によく似たクエリには、少数の画像が十分である。
提案手法は,参照画像データベースとの類似性に基づいて,クエリ画像を異なる局所化困難度に分割する手法であるAIR-HLocを提案する。
参照画像との類似性が高い画像は簡単なクエリであり、類似性が低い画像はハードクエリであると考えている。
簡単なクエリは、$k$を増やせば、精度が制限される。
逆に$k$の値が高いと、ハードクエリの精度が大幅に向上する。
簡単なクエリに対する$k$の増加と、ハードクエリに対する大幅な改善により、クエリの難易度レベルに$k$の値を適用することができる。
したがって、AIR-HLocは、クエリと参照画像の類似性に基づいて$k$の異なる値を、精度を損なうことなく適応的に割り当てることで、処理時間を最適化する。
Cambridge Landmarks, 7Scenes, Aachen Day-Night-v1.1データセットに関する広範な実験は、固定画像検索のHLOCと比較してSOTA精度を維持しながら、30\%、26\%、11\%の計算オーバーヘッドを削減し、アルゴリズムの有効性を示した。
関連論文リスト
- Multi-Spectral Remote Sensing Image Retrieval Using Geospatial
Foundation Models [0.6144680854063939]
この研究は、PrithviのようなGeospatial Foundation Modelsをリモートセンシング画像検索に使用することを提案している。
検索タスクに2つのデータセットを導入し、高い性能を観察する。
Prithviは6つのバンドを処理し、平均精度はBigEarthNet-43で97.62%、フォレストNet-12で44.51%に達する。
論文 参考訳(メタデータ) (2024-03-04T14:00:45Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text
Retrieval [85.28292877465353]
本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。
具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
論文 参考訳(メタデータ) (2022-05-24T14:32:57Z) - How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。
本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。
さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文 参考訳(メタデータ) (2021-10-05T20:15:35Z) - Beyond ANN: Exploiting Structural Knowledge for Efficient Place
Recognition [8.121462458089143]
オンラインで適用可能な効率的な位置認識のための新しい高速シーケンスベースの方法を提案する。
提案手法は,2つの最先端手法と,多くの場合,フル画像比較に優れる。
論文 参考訳(メタデータ) (2021-03-15T13:10:57Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z) - Improving Calibration in Deep Metric Learning With Cross-Example Softmax [11.014197662964335]
我々は,トップ$kとしきい値の関係性を組み合わせたクロスサンプルソフトマックスを提案する。
各イテレーションにおいて、提案された損失は、すべてのクエリがすべての非マッチングイメージよりも、すべてのクエリが一致するイメージに近づくことを奨励する。
これにより、世界規模で校正された類似度メートル法が導き出され、距離は関連性の絶対測度としてより解釈可能である。
論文 参考訳(メタデータ) (2020-11-17T18:47:28Z) - Permuted AdaIN: Reducing the Bias Towards Global Statistics in Image
Classification [97.81205777897043]
近年の研究では、畳み込みニューラルネットワーク分類器は形状を犠牲にしてテクスチャを過度に依存していることが示されている。
一方、形状と局所像の区別は類似しているが異なるが、一方、グローバル画像統計は異なる。
提案手法は,pAdaIN (Permuted Adaptive Instance Normalization) と呼ばれ,画像分類器の隠蔽層におけるグローバル統計の表現を減少させる。
論文 参考訳(メタデータ) (2020-10-09T16:38:38Z) - Compositional Learning of Image-Text Query for Image Retrieval [3.9348884623092517]
画像検索のための画像とテキストクエリの合成を学習するための自動エンコーダベースモデルComposeAEを提案する。
我々は、深層メトリック学習アプローチを採用し、ソース画像とテキストクエリの合成をターゲット画像に近づけるメトリクスを学習する。
論文 参考訳(メタデータ) (2020-06-19T14:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。