論文の概要: Towards Implicit Aggregation: Robust Image Representation for Place Recognition in the Transformer Era
- arxiv url: http://arxiv.org/abs/2511.06024v1
- Date: Sat, 08 Nov 2025 14:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.713347
- Title: Towards Implicit Aggregation: Robust Image Representation for Place Recognition in the Transformer Era
- Title(参考訳): 急激な集団化に向けて:トランスフォーマー時代の位置認識のためのロバスト画像表現
- Authors: Feng Lu, Tong Jin, Canming Ye, Yunpeng Liu, Xiangyuan Lan, Chun Yuan,
- Abstract要約: いくつかの学習可能なアグリゲーショントークンを導入し、特定のトランスフォーマーブロックの前にパッチトークンにプリコンパイルする。
これらのトークンはすべて、固有の自己認識機構を通じて、共同で処理され、世界規模で相互作用する。
提案手法は,複数のVPRデータセットにおける最先端の手法よりも効率が高く,MSLSチャレンジリーダーボードで1位にランクインする。
- 参考スコア(独自算出の注目度): 60.09990228573728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition (VPR) is typically regarded as a specific image retrieval task, whose core lies in representing images as global descriptors. Over the past decade, dominant VPR methods (e.g., NetVLAD) have followed a paradigm that first extracts the patch features/tokens of the input image using a backbone, and then aggregates these patch features into a global descriptor via an aggregator. This backbone-plus-aggregator paradigm has achieved overwhelming dominance in the CNN era and remains widely used in transformer-based models. In this paper, however, we argue that a dedicated aggregator is not necessary in the transformer era, that is, we can obtain robust global descriptors only with the backbone. Specifically, we introduce some learnable aggregation tokens, which are prepended to the patch tokens before a particular transformer block. All these tokens will be jointly processed and interact globally via the intrinsic self-attention mechanism, implicitly aggregating useful information within the patch tokens to the aggregation tokens. Finally, we only take these aggregation tokens from the last output tokens and concatenate them as the global representation. Although implicit aggregation can provide robust global descriptors in an extremely simple manner, where and how to insert additional tokens, as well as the initialization of tokens, remains an open issue worthy of further exploration. To this end, we also propose the optimal token insertion strategy and token initialization method derived from empirical studies. Experimental results show that our method outperforms state-of-the-art methods on several VPR datasets with higher efficiency and ranks 1st on the MSLS challenge leaderboard. The code is available at https://github.com/lu-feng/image.
- Abstract(参考訳): 視覚的位置認識(VPR)は一般的に特定の画像検索タスクと見なされ、その中核は画像をグローバルな記述子として表現することにある。
過去10年間、支配的なVPRメソッド(例えばNetVLAD)は、最初にバックボーンを使用して入力画像のパッチ機能/トークンを抽出し、アグリゲータを介してこれらのパッチ機能をグローバルディスクリプタに集約するパラダイムに従ってきた。
このバックボーン+アグリゲータのパラダイムは、CNN時代に圧倒的な優位性を達成し、トランスフォーマーベースのモデルで広く使われている。
しかし,本稿では,トランスの時代には専用のアグリゲータは必要ない,すなわちバックボーンのみを用いて,ロバストなグローバルディスクリプタを得ることができる,と論じる。
具体的には、特定の変圧器ブロックの前にパッチトークンにプリコンパイルされる、学習可能なアグリゲーショントークンをいくつか導入する。
これらのトークンは、パッチトークン内の有用な情報をアグリゲーショントークンに暗黙的に集約する、本質的な自己保持機構を通じて、共同で処理され、グローバルに相互作用する。
最後に、これらのアグリゲーショントークンを最後の出力トークンから取り出し、それらをグローバル表現として結合する。
暗黙の集約は、トークンを挿入する場所や方法、トークンの初期化など、非常に単純な方法で、堅牢なグローバル記述子を提供することができるが、さらなる探索には相応しいオープンな問題である。
そこで本研究では,実証実験から得られたトークン挿入戦略とトークン初期化手法を提案する。
実験結果から,本手法は複数のVPRデータセットにおける最先端の手法よりも効率が高く,MSLSチャレンジリーダーボードでは第1位であることがわかった。
コードはhttps://github.com/lu-feng/image.comで公開されている。
関連論文リスト
- Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Quantised Global Autoencoder: A Holistic Approach to Representing Visual Data [7.152103069753289]
量子化されたオートエンコーダでは、画像は通常、局所的なパッチに分割され、それぞれが1つのトークンでエンコードされる。
本手法は,入力信号を大域周波数の重畳に変換するスペクトル分解に着想を得たものである。
論文 参考訳(メタデータ) (2024-07-16T17:05:20Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - AAformer: Auto-Aligned Transformer for Person Re-Identification [82.45385078624301]
トランスアーキテクチャにおけるアライメント方式を初めて導入する。
本研究では,人体と非人体の両方をパッチレベルで自動的に検出する自動整列トランス (AAformer) を提案する。
AAformerは、部分アライメントを自己アテンションに統合し、出力[PART]を直接検索する機能として使用することができる。
論文 参考訳(メタデータ) (2021-04-02T08:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。