論文の概要: AAformer: Auto-Aligned Transformer for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2104.00921v1
- Date: Fri, 2 Apr 2021 08:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:49:49.325525
- Title: AAformer: Auto-Aligned Transformer for Person Re-Identification
- Title(参考訳): aaformer: 人物再識別のための自動アライメントトランス
- Authors: Kuan Zhu, Haiyun Guo, Shiliang Zhang, Yaowei Wang, Gaopan Huang,
Honglin Qiao, Jing Liu, Jinqiao Wang, Ming Tang
- Abstract要約: Transformerは、画像分類やオブジェクト検出などの多くのビジョンタスクにおいて、畳み込みアーキテクチャよりも優位性を示しています。
部分表現を学習するために「部分トークン」の学習可能なベクトルを追加することにより、トランスフォーマーのための新しいアライメントフレームワークを開発した。
このフレームワークに基づいて、同一のセマンティクスのパッチ埋め込みを同一部分トークンに適応的に割り当てるオンライン自動調整変換器(AAformer)を設計する。
- 参考スコア(独自算出の注目度): 77.29096172564091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer is showing its superiority over convolutional architectures in
many vision tasks like image classification and object detection. However, the
lacking of an explicit alignment mechanism limits its capability in person
re-identification (re-ID), in which there are inevitable misalignment issues
caused by pose/viewpoints variations, etc. On the other hand, the alignment
paradigm of convolutional neural networks does not perform well in Transformer
in our experiments. To address this problem, we develop a novel alignment
framework for Transformer through adding the learnable vectors of "part tokens"
to learn the part representations and integrating the part alignment into the
self-attention. A part token only interacts with a subset of patch embeddings
and learns to represent this subset. Based on the framework, we design an
online Auto-Aligned Transformer (AAformer) to adaptively assign the patch
embeddings of the same semantics to the identical part token in the running
time. The part tokens can be regarded as the part prototypes, and a fast
variant of Sinkhorn-Knopp algorithm is employed to cluster the patch embeddings
to part tokens online. AAformer can be viewed as a new principled formulation
for simultaneously learning both part alignment and part representations.
Extensive experiments validate the effectiveness of part tokens and the
superiority of AAformer over various state-of-the-art CNN-based methods. Our
codes will be released.
- Abstract(参考訳): transformerは、画像分類やオブジェクト検出といった多くのビジョンタスクにおいて、畳み込みアーキテクチャよりも優れています。
しかし、明示的なアライメント機構が欠如していることは、ポーズ/ビューポイントのバリエーションなどによって生じる必然的なミスアライメントの問題がある、人物の再識別(re-ID)の能力を制限する。
一方,畳み込みニューラルネットワークのアライメントパラダイムは,本実験ではトランスフォーマーではうまく機能しない。
そこで本研究では,部分表現を学習するための「部分トークン」の学習可能なベクトルを追加し,部分アライメントを自己注意に組み込むことにより,トランスフォーマーの新しいアライメントフレームワークを開発する。
部分トークンはパッチ埋め込みのサブセットとのみ相互作用し、このサブセットを表現することを学ぶ。
このフレームワークに基づいて、同じ意味論のパッチ埋め込みを実行時に同一部分トークンに適応的に割り当てるオンライン自動調整変換器(AAformer)を設計する。
部分トークンはパートプロトタイプと見なすことができ、Sinkhorn-Knoppアルゴリズムの高速な変種がパッチ埋め込みをオンラインにクラスタリングするために使用される。
AAformerは、部分アライメントと部分表現の両方を同時に学習するための新しい原則の定式化と見なすことができる。
広範囲な実験により、AAformer の様々な最先端 CNN 法に対する有効性と優位性が検証された。
私たちのコードはリリースされます。
関連論文リスト
- PAFormer: Part Aware Transformer for Person Re-identification [3.8004980982852214]
ポーズ推定に基づくReIDモデルである textbf Part Aware Transformer (PAFormer) を導入する。
提案手法は,有名なReIDベンチマークデータセットにおける既存手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-12T04:46:55Z) - A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-01-03T06:58:52Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-17T09:44:54Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。