論文の概要: AAformer: Auto-Aligned Transformer for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2104.00921v3
- Date: Tue, 25 Jun 2024 04:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 23:29:11.819582
- Title: AAformer: Auto-Aligned Transformer for Person Re-Identification
- Title(参考訳): AAformer: 人物再識別のための自動アライン変換器
- Authors: Kuan Zhu, Haiyun Guo, Shiliang Zhang, Yaowei Wang, Jing Liu, Jinqiao Wang, Ming Tang,
- Abstract要約: トランスアーキテクチャにおけるアライメント方式を初めて導入する。
本研究では,人体と非人体の両方をパッチレベルで自動的に検出する自動整列トランス (AAformer) を提案する。
AAformerは、部分アライメントを自己アテンションに統合し、出力[PART]を直接検索する機能として使用することができる。
- 参考スコア(独自算出の注目度): 82.45385078624301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In person re-identification (re-ID), extracting part-level features from person images has been verified to be crucial to offer fine-grained information. Most of the existing CNN-based methods only locate the human parts coarsely, or rely on pretrained human parsing models and fail in locating the identifiable nonhuman parts (e.g., knapsack). In this article, we introduce an alignment scheme in transformer architecture for the first time and propose the auto-aligned transformer (AAformer) to automatically locate both the human parts and nonhuman ones at patch level. We introduce the "Part tokens ([PART]s)", which are learnable vectors, to extract part features in the transformer. A [PART] only interacts with a local subset of patches in self-attention and learns to be the part representation. To adaptively group the image patches into different subsets, we design the auto-alignment. Auto-alignment employs a fast variant of optimal transport (OT) algorithm to online cluster the patch embeddings into several groups with the [PART]s as their prototypes. AAformer integrates the part alignment into the self-attention and the output [PART]s can be directly used as part features for retrieval. Extensive experiments validate the effectiveness of [PART]s and the superiority of AAformer over various state-of-the-art methods.
- Abstract(参考訳): 人物再識別(re-ID)では、人物画像から部分レベルの特徴を抽出することが重要視されている。
既存のCNNベースの手法のほとんどは、人間の部分のみを粗く見つけるか、事前訓練された人間の解析モデルに依存し、特定可能な非人間の部分(例えば、knapsack)を見つけるのに失敗する。
本稿では, トランスアーキテクチャにおけるアライメント方式を初めて導入し, 自動アライメントトランス (AAformer) を提案する。
本稿では,学習可能なベクトルである"Part tokens ([PART]s)"を導入し,変換器の部分特徴を抽出する。
PARTは、自己アテンションにおいてパッチの局所的なサブセットとのみ相互作用し、部分表現であることを学ぶ。
画像パッチを異なるサブセットに適応的に分類するために、自動アライメントを設計する。
自動アライメントは、(PART)をプロトタイプとして複数のグループに埋め込んだパッチをオンラインクラスタ化するために、高速な最適なトランスポート(OT)アルゴリズムを採用している。
AAformerは、部分アライメントを自己アテンションに統合し、出力[PART]を直接検索する機能として使用することができる。
広範囲な実験により, AAformer の[PART] の有効性と, 各種最先端手法に対する優位性が検証された。
関連論文リスト
- PAFormer: Part Aware Transformer for Person Re-identification [3.8004980982852214]
ポーズ推定に基づくReIDモデルである textbf Part Aware Transformer (PAFormer) を導入する。
提案手法は,有名なReIDベンチマークデータセットにおける既存手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-12T04:46:55Z) - A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-01-03T06:58:52Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-17T09:44:54Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。