Fugu-MT 論文翻訳(概要): VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition

論文の概要: VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition

arxiv url: http://arxiv.org/abs/2409.19293v1
Date: Sat, 28 Sep 2024 09:44:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 00:08:33.393691
Title: VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition
Title（参考訳）: VLAD-BuFF:視覚的位置認識のためのバースト認識高速特徴集約
Authors: Ahmad Khaliq, Ming Xu, Stephen Hausler, Michael Milford, Sourav Garg,
Abstract要約: 本稿では,VLAD-BuFFを提案する。これは,エンドツーエンドのVPRトレーニングにおいてバースト認識機能を学ぶための,自己相似機能割引機構である。我々は、VLAD-BuFFが新しい技術状態を設定する9つの公開データセットに対して、我々の手法をベンチマークする。提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。
参考スコア（独自算出の注目度）: 23.173085268845384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Place Recognition (VPR) is a crucial component of many visual localization pipelines for embodied agents. VPR is often formulated as an image retrieval task aimed at jointly learning local features and an aggregation method. The current state-of-the-art VPR methods rely on VLAD aggregation, which can be trained to learn a weighted contribution of features through their soft assignment to cluster centers. However, this process has two key limitations. Firstly, the feature-to-cluster weighting does not account for over-represented repetitive structures within a cluster, e.g., shadows or window panes; this phenomenon is also referred to as the `burstiness' problem, classically solved by discounting repetitive features before aggregation. Secondly, feature to cluster comparisons are compute-intensive for state-of-the-art image encoders with high-dimensional local features. This paper addresses these limitations by introducing VLAD-BuFF with two novel contributions: i) a self-similarity based feature discounting mechanism to learn Burst-aware features within end-to-end VPR training, and ii) Fast Feature aggregation by reducing local feature dimensions specifically through PCA-initialized learnable pre-projection. We benchmark our method on 9 public datasets, where VLAD-BuFF sets a new state of the art. Our method is able to maintain its high recall even for 12x reduced local feature dimensions, thus enabling fast feature aggregation without compromising on recall. Through additional qualitative studies, we show how our proposed weighting method effectively downweights the non-distinctive features. Source code: https://github.com/Ahmedest61/VLAD-BuFF/.
Abstract（参考訳）: 視覚的位置認識(VPR)は、多くの視覚的位置決めパイプラインの重要な要素である。 VPRは、局所的な特徴を共同学習するための画像検索タスクとアグリゲーションメソッドとして、しばしば定式化される。現在の最先端のVPR手法はVLADアグリゲーションに依存しており、クラスタセンターへのソフトアサインを通じて、機能の重み付けされたコントリビューションを学ぶように訓練することができる。しかし、このプロセスには2つの重要な制限がある。第一に、クラスタ間重み付けはクラスタ内の過剰に表現された繰り返し構造(例えば、シャドウやウィンドウペイン)を考慮しない。第二に、クラスタ比較に対する特徴は、高次元局所特徴を持つ最先端の画像エンコーダに対して計算集約的である。本稿では,VLAD-BuFFを2つの新しいコントリビューションで導入することで,これらの制限に対処する。一エンドツーエンドのVPR訓練において、バースト認識の特徴を学習するための自己相似機能割引機構二局所的特徴次元を減らし、特にPCAを初期化して学習可能な事前投影により高速な特徴集約を行うこと。我々は、VLAD-BuFFが新しい最先端を設定できる9つの公開データセットに対して、我々の手法をベンチマークする。提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。さらなる質的研究を通じて,提案手法が非識別的特徴を効果的に下降させることを示す。ソースコード:https://github.com/Ahmedest61/VLAD-BuFF/。

関連論文リスト

SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文参考訳（メタデータ） (2024-07-02T14:12:21Z)
Local positional graphs and attentive local features for a data and runtime-efficient hierarchical place recognition pipeline [11.099588962062937]
本稿では,既存のアプローチを拡張し,新しいアイデアを提示する,ランタイムとデータ効率のよい階層型VPRパイプラインを提案する。まず,ローカル画像の特徴の空間的コンテキスト情報を符号化する学習不要かつ実行効率のよいアプローチであるローカル位置グラフ(LPG)を提案する。第2に,アテンタティブ・ローカルSPED(Attentive Local SPED)について述べる。第3に,超次元計算を利用した階層型パイプラインを提案し,高速な候補選択と候補再評価のために,全体的HDC記述子と同じ局所的特徴を利用する。
論文参考訳（メタデータ） (2024-03-15T13:26:39Z)
Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。 DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文参考訳（メタデータ） (2024-03-05T06:17:59Z)
Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文参考訳（メタデータ） (2024-02-25T13:22:17Z)
Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。 SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文参考訳（メタデータ） (2023-11-27T15:46:19Z)
Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文参考訳（メタデータ） (2023-07-16T03:48:57Z)
PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文参考訳（メタデータ） (2023-04-14T16:27:56Z)
Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。 IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文参考訳（メタデータ） (2022-06-17T09:40:14Z)
M2IOSR: Maximal Mutual Information Open Set Recognition [47.1393314282815]
オープンセット認識のための合理化アーキテクチャを用いた相互情報に基づく手法を提案する。提案手法は, ベースラインの性能を著しく向上させ, 連続したベンチマークによる新しい最先端結果を実現する。
論文参考訳（メタデータ） (2021-08-05T05:08:12Z)
Channel DropBlock: An Improved Regularization Method for Fine-Grained Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文参考訳（メタデータ） (2021-06-07T09:03:02Z)
STA-VPR: Spatio-temporal Alignment for Visual Place Recognition [17.212503755962757]
画像間の距離を計測しながら空間領域から局所的な特徴を整列する適応動的時間ウォーピングアルゴリズムを提案する。時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTWアルゴリズムを適用した。その結果,提案手法はcnnに基づく手法を大幅に改善した。
論文参考訳（メタデータ） (2021-03-25T03:27:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。