論文の概要: Visual Re-Ranking with Non-Visual Side Information
- arxiv url: http://arxiv.org/abs/2504.11134v1
- Date: Tue, 15 Apr 2025 12:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:45.259847
- Title: Visual Re-Ranking with Non-Visual Side Information
- Title(参考訳): 非視覚的側情報を用いた視覚的リランキング
- Authors: Gustav Hanning, Gabrielle Flood, Viktor Larsson,
- Abstract要約: 本稿では,他の種類のサイド情報を活用可能なグラフニューラルネットワークを用いたリグレード手法を提案する。
実験では、画像検索の指標だけでなく、下流の視覚的ローカライゼーションタスクにも大きな改善が見られた。
- 参考スコア(独自算出の注目度): 21.7701816159427
- License:
- Abstract: The standard approach for visual place recognition is to use global image descriptors to retrieve the most similar database images for a given query image. The results can then be further improved with re-ranking methods that re-order the top scoring images. However, existing methods focus on re-ranking based on the same image descriptors that were used for the initial retrieval, which we argue provides limited additional signal. In this work we propose Generalized Contextual Similarity Aggregation (GCSA), which is a graph neural network-based re-ranking method that, in addition to the visual descriptors, can leverage other types of available side information. This can for example be other sensor data (such as signal strength of nearby WiFi or BlueTooth endpoints) or geometric properties such as camera poses for database images. In many applications this information is already present or can be acquired with low effort. Our architecture leverages the concept of affinity vectors to allow for a shared encoding of the heterogeneous multi-modal input. Two large-scale datasets, covering both outdoor and indoor localization scenarios, are utilized for training and evaluation. In experiments we show significant improvement not only on image retrieval metrics, but also for the downstream visual localization task.
- Abstract(参考訳): 視覚的位置認識の標準的なアプローチは、グローバルイメージ記述子を使用して、与えられたクエリイメージに対して最もよく似たデータベースイメージを取得することである。
結果はさらに改善され、上位のスコアリング画像を並べ替えるメソッドが再ランクされる。
しかし、既存の手法では、初期検索に使われた同じ画像記述子に基づいて再ランク付けすることに重点を置いている。
本研究では、視覚記述子に加えて、利用可能な他の種類のサイド情報を活用することができるグラフニューラルネットワークに基づく再分類手法である、一般文脈類似性集約(GCSA)を提案する。
これは例えば、他のセンサーデータ(近くのWiFiやBlueToothエンドポイントの信号強度など)や、データベースイメージのカメラポーズのような幾何学的特性である。
多くのアプリケーションでは、この情報は既に存在するか、低い労力で取得できる。
我々のアーキテクチャはアフィニティベクトルの概念を活用し、異種多モード入力の共有符号化を可能にする。
2つの大規模データセットは、屋外および屋内の両方のローカライゼーションシナリオをカバーし、トレーニングと評価に使用される。
実験では、画像検索の指標だけでなく、下流の視覚的ローカライゼーションタスクにも大きな改善が見られた。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Regressing Transformers for Data-efficient Visual Place Recognition [10.156432076272475]
この研究は、レグレッション問題としての場所認識をフレーミングすることで、新しい視点を導入する。
画像ディスクリプタをグレード付き類似ラベルと直接整合するように最適化することにより、高価な再ランク付けなしでランキング機能を向上させる。
論文 参考訳(メタデータ) (2024-01-29T17:04:32Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - Data-efficient Large Scale Place Recognition with Graded Similarity
Supervision [10.117451511942267]
視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。
既存の方法は、同じ場所を表すか、そうでないイメージペアを使って訓練される。
VPRデータセットを再ラベルするための自動再アノテーション戦略をデプロイする。
コントラストネットワークのトレーニングに,グレード付き類似性ラベルを用いた新しい一般化コントラスト損失(GCL)を提案する。
論文 参考訳(メタデータ) (2023-03-21T10:56:57Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。