論文の概要: Optimal Transport Aggregation for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2311.15937v1
- Date: Mon, 27 Nov 2023 15:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:42:30.924269
- Title: Optimal Transport Aggregation for Visual Place Recognition
- Title(参考訳): 視覚位置認識のための最適輸送集約
- Authors: Sergio Izquierdo, Javier Civera
- Abstract要約: SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
- 参考スコア(独自算出の注目度): 10.859910783551937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Visual Place Recognition (VPR) aims to match a query image
against references from an extensive database of images from different places,
relying solely on visual cues. State-of-the-art pipelines focus on the
aggregation of features extracted from a deep backbone, in order to form a
global descriptor for each image. In this context, we introduce SALAD (Sinkhorn
Algorithm for Locally Aggregated Descriptors), which reformulates NetVLAD's
soft-assignment of local features to clusters as an optimal transport problem.
In SALAD, we consider both feature-to-cluster and cluster-to-feature relations
and we also introduce a 'dustbin' cluster, designed to selectively discard
features deemed non-informative, enhancing the overall descriptor quality.
Additionally, we leverage and fine-tune DINOv2 as a backbone, which provides
enhanced description power for the local features, and dramatically reduces the
required training time. As a result, our single-stage method not only surpasses
single-stage baselines in public VPR datasets, but also surpasses two-stage
methods that add a re-ranking with significantly higher cost. Code and models
are available at https://github.com/serizba/salad.
- Abstract(参考訳): ビジュアルプレイス認識(vpr)のタスクは、視覚的な手がかりのみに頼りながら、異なる場所からの広範な画像データベースからの参照に対してクエリイメージをマッチングすることを目的としている。
state-of-the-artパイプラインは、ディープバックボーンから抽出された機能の集約に注目し、各イメージのグローバルディスクリプタを形成する。
本稿では,SALAD(Sinkhorn Algorithm for Locally Aggregated Descriptors)を導入し,NetVLADの局所特徴のソフトアサインを最適な輸送問題としてクラスタに再構成する。
サラダでは,クラスタ間およびクラスタ間関係を検討するとともに,非インフォーマティブと考えられる機能を選択的に破棄し,全体的なディスクリプタ品質を向上させるために設計された"ダストビン"クラスタも導入する。
さらに、DINOv2をバックボーンとして微調整し、ローカル機能の記述能力を強化し、必要なトレーニング時間を劇的に短縮します。
その結果,提案手法は,公開vprデータセットの単段ベースラインを超過するだけでなく,コストの高い再ランク付けを行う二段法を超過する。
コードとモデルはhttps://github.com/serizba/saladで入手できる。
関連論文リスト
- VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition [23.173085268845384]
本稿では,VLAD-BuFFを提案する。これは,エンドツーエンドのVPRトレーニングにおいてバースト認識機能を学ぶための,自己相似機能割引機構である。
我々は、VLAD-BuFFが新しい技術状態を設定する9つの公開データセットに対して、我々の手法をベンチマークする。
提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。
論文 参考訳(メタデータ) (2024-09-28T09:44:08Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。