論文の概要: Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification
- arxiv url: http://arxiv.org/abs/2404.14985v1
- Date: Tue, 23 Apr 2024 12:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:01:50.133038
- Title: Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification
- Title(参考訳): オブジェクト再同定のための視覚変換器のグローバル・ローカル特徴の探索
- Authors: Yingquan Wang, Pingping Zhang, Dong Wang, Huchuan Lu,
- Abstract要約: 我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 63.147482497821166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Re-Identification (Re-ID) aims to identify and retrieve specific objects from images captured at different places and times. Recently, object Re-ID has achieved great success with the advances of Vision Transformers (ViT). However, the effects of the global-local relation have not been fully explored in Transformers for object Re-ID. In this work, we first explore the influence of global and local features of ViT and then further propose a novel Global-Local Transformer (GLTrans) for high-performance object Re-ID. We find that the features from last few layers of ViT already have a strong representational ability, and the global and local information can mutually enhance each other. Based on this fact, we propose a Global Aggregation Encoder (GAE) to utilize the class tokens of the last few Transformer layers and learn comprehensive global features effectively. Meanwhile, we propose the Local Multi-layer Fusion (LMF) which leverages both the global cues from GAE and multi-layer patch tokens to explore the discriminative local representations. Extensive experiments demonstrate that our proposed method achieves superior performance on four object Re-ID benchmarks.
- Abstract(参考訳): オブジェクト再識別(Re-ID)は、異なる場所や時間で撮影された画像から特定のオブジェクトを識別し、検索することを目的としている。
近年、オブジェクトRe-IDはビジョントランスフォーマー(ViT)の進歩によって大きな成功を収めている。
しかし, オブジェクトRe-IDに対するトランスフォーマーでは, グローバルな局所関係の効果が十分に調べられていない。
本研究ではまず,ViTのグローバルおよびローカルな特徴の影響について検討し,さらに高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
ViTの最後の数層から得られる機能は,すでに強力な表現能力を有しており,グローバルな情報とローカルな情報が相互に拡張可能であることが判明した。
この事実に基づいて,最後の数層のTransformerレイヤのクラストークンを利用するグローバルアグリゲーションエンコーダ(GAE)を提案し,包括的グローバル機能を効果的に学習する。
一方,GAEのグローバルキューと多層パッチトークンの両方を利用して識別的局所表現を探索するローカル多層融合(LMF)を提案する。
大規模な実験により,提案手法は4つのオブジェクトRe-IDベンチマークにおいて優れた性能を示した。
関連論文リスト
- Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Part-Aware Transformer for Generalizable Person Re-identification [138.99827526048205]
ドメイン一般化者再識別(DG-ReID)は、ソースドメインのモデルをトレーニングし、目に見えないドメインでうまく一般化することを目的としている。
我々は、CSL(Cross-ID similarity Learning)と呼ばれるプロキシタスクを設計し、DG-ReIDのための純粋なトランスモデル(Part-aware Transformer)を提案する。
このプロキシタスクは、IDラベルに関わらず、部品の視覚的類似性のみを気にするので、モデルが一般的な機能を学ぶことができる。
論文 参考訳(メタデータ) (2023-08-07T06:15:51Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group
Propagation [25.689520892609213]
本稿では,高分解能特徴を持つ一般視覚認識のための新しい非階層型トランスフォーマーモデルを提案する。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
論文 参考訳(メタデータ) (2022-12-13T18:26:00Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。