論文の概要: AAformer: Auto-Aligned Transformer for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2104.00921v1
- Date: Fri, 2 Apr 2021 08:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:49:49.325525
- Title: AAformer: Auto-Aligned Transformer for Person Re-Identification
- Title(参考訳): aaformer: 人物再識別のための自動アライメントトランス
- Authors: Kuan Zhu, Haiyun Guo, Shiliang Zhang, Yaowei Wang, Gaopan Huang,
Honglin Qiao, Jing Liu, Jinqiao Wang, Ming Tang
- Abstract要約: Transformerは、画像分類やオブジェクト検出などの多くのビジョンタスクにおいて、畳み込みアーキテクチャよりも優位性を示しています。
部分表現を学習するために「部分トークン」の学習可能なベクトルを追加することにより、トランスフォーマーのための新しいアライメントフレームワークを開発した。
このフレームワークに基づいて、同一のセマンティクスのパッチ埋め込みを同一部分トークンに適応的に割り当てるオンライン自動調整変換器(AAformer)を設計する。
- 参考スコア(独自算出の注目度): 77.29096172564091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer is showing its superiority over convolutional architectures in
many vision tasks like image classification and object detection. However, the
lacking of an explicit alignment mechanism limits its capability in person
re-identification (re-ID), in which there are inevitable misalignment issues
caused by pose/viewpoints variations, etc. On the other hand, the alignment
paradigm of convolutional neural networks does not perform well in Transformer
in our experiments. To address this problem, we develop a novel alignment
framework for Transformer through adding the learnable vectors of "part tokens"
to learn the part representations and integrating the part alignment into the
self-attention. A part token only interacts with a subset of patch embeddings
and learns to represent this subset. Based on the framework, we design an
online Auto-Aligned Transformer (AAformer) to adaptively assign the patch
embeddings of the same semantics to the identical part token in the running
time. The part tokens can be regarded as the part prototypes, and a fast
variant of Sinkhorn-Knopp algorithm is employed to cluster the patch embeddings
to part tokens online. AAformer can be viewed as a new principled formulation
for simultaneously learning both part alignment and part representations.
Extensive experiments validate the effectiveness of part tokens and the
superiority of AAformer over various state-of-the-art CNN-based methods. Our
codes will be released.
- Abstract(参考訳): transformerは、画像分類やオブジェクト検出といった多くのビジョンタスクにおいて、畳み込みアーキテクチャよりも優れています。
しかし、明示的なアライメント機構が欠如していることは、ポーズ/ビューポイントのバリエーションなどによって生じる必然的なミスアライメントの問題がある、人物の再識別(re-ID)の能力を制限する。
一方,畳み込みニューラルネットワークのアライメントパラダイムは,本実験ではトランスフォーマーではうまく機能しない。
そこで本研究では,部分表現を学習するための「部分トークン」の学習可能なベクトルを追加し,部分アライメントを自己注意に組み込むことにより,トランスフォーマーの新しいアライメントフレームワークを開発する。
部分トークンはパッチ埋め込みのサブセットとのみ相互作用し、このサブセットを表現することを学ぶ。
このフレームワークに基づいて、同じ意味論のパッチ埋め込みを実行時に同一部分トークンに適応的に割り当てるオンライン自動調整変換器(AAformer)を設計する。
部分トークンはパートプロトタイプと見なすことができ、Sinkhorn-Knoppアルゴリズムの高速な変種がパッチ埋め込みをオンラインにクラスタリングするために使用される。
AAformerは、部分アライメントと部分表現の両方を同時に学習するための新しい原則の定式化と見なすことができる。
広範囲な実験により、AAformer の様々な最先端 CNN 法に対する有効性と優位性が検証された。
私たちのコードはリリースされます。
関連論文リスト
- Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文 参考訳(メタデータ) (2023-02-27T17:27:45Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Cross-domain Detection Transformer based on Spatial-aware and
Semantic-aware Token Alignment [31.759205815348658]
クロスドメイン検出変換器のための空間認識および意味認識トークンアライメント(SSTA)と呼ばれる新しい手法を提案する。
空間認識型トークンアライメントでは、クロスアテンションマップ(CAM)から情報を抽出して、トークンの分布をオブジェクトクエリへの注目に応じて調整することができる。
意味認識型トークンアライメントでは、カテゴリ情報をクロスアテンションマップに注入し、ドメイン埋め込みを構築し、マルチクラスの識別器の学習をガイドする。
論文 参考訳(メタデータ) (2022-06-01T04:13:22Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。