論文の概要: Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2304.14122v1
- Date: Thu, 27 Apr 2023 12:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:40:14.169454
- Title: Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification
- Title(参考訳): 映像ベース人物再同定のための空間-時間相補学習を用いた深結合畳み込み変換器
- Authors: Xuehu Liu, Chenyang Yu, Pingping Zhang and Huchuan Lu
- Abstract要約: 本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
- 参考スコア(独自算出の注目度): 91.56939957189505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced deep Convolutional Neural Networks (CNNs) have shown great success
in video-based person Re-Identification (Re-ID). However, they usually focus on
the most obvious regions of persons with a limited global representation
ability. Recently, it witnesses that Transformers explore the inter-patch
relations with global observations for performance improvements. In this work,
we take both sides and propose a novel spatial-temporal complementary learning
framework named Deeply-Coupled Convolution-Transformer (DCCT) for
high-performance video-based person Re-ID. Firstly, we couple CNNs and
Transformers to extract two kinds of visual features and experimentally verify
their complementarity. Further, in spatial, we propose a Complementary Content
Attention (CCA) to take advantages of the coupled structure and guide
independent features for spatial complementary learning. In temporal, a
Hierarchical Temporal Aggregation (HTA) is proposed to progressively capture
the inter-frame dependencies and encode temporal information. Besides, a gated
attention is utilized to deliver aggregated temporal information into the CNN
and Transformer branches for temporal complementary learning. Finally, we
introduce a self-distillation training strategy to transfer the superior
spatial-temporal knowledge to backbone networks for higher accuracy and more
efficiency. In this way, two kinds of typical features from same videos are
integrated mechanically for more informative representations. Extensive
experiments on four public Re-ID benchmarks demonstrate that our framework
could attain better performances than most state-of-the-art methods.
- Abstract(参考訳): 高度な深層畳み込みニューラルネットワーク(CNN)は、ビデオベースの人物認識(Re-ID)において大きな成功を収めている。
しかし、通常は、グローバルな表現能力に制限のある人々の最も明白な領域に焦点を当てる。
近年、トランスフォーマーはパフォーマンス改善のためのグローバルな観測とパッチ間関係を探求している。
そこで本研究では,両側面から深層結合型畳み込み変換器(dcct)という新しい空間-時間相補学習フレームワークを提案する。
まず, cnnとトランスフォーマーを結合して2種類の視覚特徴を抽出し, その相補性を実験的に検証した。
さらに,空間的補完学習において,結合構造の利点を活かし,独立した特徴を導出するための補完コンテンツ注意(CCA)を提案する。
時間的階層的テンポラルアグリゲーション(HTA)は,フレーム間の依存関係を段階的に捕捉し,時間的情報をエンコードするために提案される。
さらに,CNNおよびTransformerブランチに集約された時間情報を提供することにより,時間的補完学習を行う。
最後に,より高精度で効率の良い空間時間知識をバックボーンネットワークに転送するための自己蒸留学習手法を提案する。
このように、同じビデオから得られる2種類の典型的特徴が機械的に統合され、より情報的な表現が可能となる。
4つの公開re-idベンチマークに関する広範囲な実験は、我々のフレームワークがほとんどの最先端のメソッドよりも優れたパフォーマンスを達成できることを示しています。
関連論文リスト
- Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action
Recognition [11.116921653535226]
本稿では,CNNビジョンバックボーンとTransformerを組み合わせた2つのフレームワークについて検討する。
実験の結果,トランスフォーマーエンコーダフレームワークはいずれも,潜時的意味論と相互モダリティ関連を効果的に学習していることがわかった。
我々は,両アーキテクチャのFinGymベンチマークデータセットに対して,最先端性能を新たに実現した。
論文 参考訳(メタデータ) (2022-08-03T08:01:55Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。