論文の概要: HAT: Hierarchical Aggregation Transformers for Person Re-identification
- arxiv url: http://arxiv.org/abs/2107.05946v2
- Date: Wed, 14 Jul 2021 01:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 11:19:29.042094
- Title: HAT: Hierarchical Aggregation Transformers for Person Re-identification
- Title(参考訳): HAT: 人物再識別のための階層的集約変換器
- Authors: Guowen Zhang and Pingping Zhang and Jinqing Qi and Huchuan Lu
- Abstract要約: 我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
- 参考スコア(独自算出の注目度): 87.02828084991062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, with the advance of deep Convolutional Neural Networks (CNNs),
person Re-Identification (Re-ID) has witnessed great success in various
applications. However, with limited receptive fields of CNNs, it is still
challenging to extract discriminative representations in a global view for
persons under non-overlapped cameras. Meanwhile, Transformers demonstrate
strong abilities of modeling long-range dependencies for spatial and sequential
data. In this work, we take advantages of both CNNs and Transformers, and
propose a novel learning framework named Hierarchical Aggregation Transformer
(HAT) for image-based person Re-ID with high performance. To achieve this goal,
we first propose a Deeply Supervised Aggregation (DSA) to recurrently aggregate
hierarchical features from CNN backbones. With multi-granularity supervisions,
the DSA can enhance multi-scale features for person retrieval, which is very
different from previous methods. Then, we introduce a Transformer-based Feature
Calibration (TFC) to integrate low-level detail information as the global prior
for high-level semantic information. The proposed TFC is inserted to each level
of hierarchical features, resulting in great performance improvements. To our
best knowledge, this work is the first to take advantages of both CNNs and
Transformers for image-based person Re-ID. Comprehensive experiments on four
large-scale Re-ID benchmarks demonstrate that our method shows better results
than several state-of-the-art methods. The code is released at
https://github.com/AI-Zhpp/HAT.
- Abstract(参考訳): 近年、深層畳み込みニューラルネットワーク(CNN)の進歩により、人物認識(Re-ID)は様々なアプリケーションで大きな成功を収めている。
しかしながら、cnnの受容領域が限られているにもかかわらず、非オーバーラップカメラ下の人々のグローバルビューで差別表現を抽出することは依然として困難である。
一方、トランスフォーマーは、空間的およびシーケンシャルなデータに対する長距離依存をモデル化する強力な能力を示す。
本研究では,CNNとトランスフォーマーの双方の利点を生かし,ハイパフォーマンスな人物Re-IDのための階層型アグリゲーショントランスフォーマ(HAT)という新しい学習フレームワークを提案する。
この目的を達成するために,我々はまず,CNNバックボーンから階層的特徴を逐次集約するDeeply Supervised Aggregation (DSA)を提案する。
マルチグラニュラリティの監視により、DSAは従来の方法とは大きく異なる、人物検索のためのマルチスケール機能を強化することができる。
次に,高レベル意味情報のグローバルプリエントとして低レベル詳細情報を統合するトランスフォーマティブ型特徴量校正(tfc)を提案する。
提案したTFCは階層的な各レベルに挿入され,性能が向上した。
我々の知る限り、この研究は、画像ベースのRe-IDに対して、CNNとTransformerの両方の利点を利用する最初のものである。
4つの大規模Re-IDベンチマークの総合的な実験により,本手法はいくつかの最先端手法よりも優れた結果を示した。
コードはhttps://github.com/AI-Zhpp/HATで公開されている。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CCTrans: Simplifying and Improving Crowd Counting with Transformer [7.597392692171026]
設計パイプラインをシンプルにするために,CCTransと呼ばれる簡単なアプローチを提案する。
具体的には、ピラミッド・ビジョン・トランスフォーマーのバックボーンを用いて、グローバルな観衆情報をキャプチャする。
提案手法は, 弱い, 完全に監督された群集カウントにおいて, いくつかのベンチマークにおいて, 最新の結果が得られる。
論文 参考訳(メタデータ) (2021-09-29T15:13:10Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。