論文の概要: Temporal-attentive Covariance Pooling Networks for Video Recognition
- arxiv url: http://arxiv.org/abs/2110.14381v2
- Date: Thu, 28 Oct 2021 01:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 12:58:40.160542
- Title: Temporal-attentive Covariance Pooling Networks for Video Recognition
- Title(参考訳): ビデオ認識のための時間整合共分散プーリングネットワーク
- Authors: Zilin Gao, Qilong Wang, Bingbing Zhang, Qinghua Hu, Peihua Li
- Abstract要約: 既存のビデオアーキテクチャは、通常、単純なグローバル平均プール法(GAP)を用いてグローバル表現を生成する。
本稿では,深いアーキテクチャの端に挿入される減衰共分散プーリング(TCP-TCP)を提案する。
我々のTCPはモデルに依存しないため、任意のビデオアーキテクチャに柔軟に統合できるため、効果的なビデオ認識のためのTCPNetとなる。
- 参考スコア(独自算出の注目度): 52.853765492522655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For video recognition task, a global representation summarizing the whole
contents of the video snippets plays an important role for the final
performance. However, existing video architectures usually generate it by using
a simple, global average pooling (GAP) method, which has limited ability to
capture complex dynamics of videos. For image recognition task, there exist
evidences showing that covariance pooling has stronger representation ability
than GAP. Unfortunately, such plain covariance pooling used in image
recognition is an orderless representative, which cannot model spatio-temporal
structure inherent in videos. Therefore, this paper proposes a
Temporal-attentive Covariance Pooling(TCP), inserted at the end of deep
architectures, to produce powerful video representations. Specifically, our TCP
first develops a temporal attention module to adaptively calibrate
spatio-temporal features for the succeeding covariance pooling, approximatively
producing attentive covariance representations. Then, a temporal covariance
pooling performs temporal pooling of the attentive covariance representations
to characterize both intra-frame correlations and inter-frame
cross-correlations of the calibrated features. As such, the proposed TCP can
capture complex temporal dynamics. Finally, a fast matrix power normalization
is introduced to exploit geometry of covariance representations. Note that our
TCP is model-agnostic and can be flexibly integrated into any video
architectures, resulting in TCPNet for effective video recognition. The
extensive experiments on six benchmarks (e.g., Kinetics, Something-Something V1
and Charades) using various video architectures show our TCPNet is clearly
superior to its counterparts, while having strong generalization ability. The
source code is publicly available.
- Abstract(参考訳): 映像認識タスクでは,映像スニペットの内容全体を要約したグローバル表現が最終演出に重要な役割を果たす。
しかし、既存のビデオアーキテクチャは通常、ビデオの複雑なダイナミックスを捉える能力に制限のある、シンプルでグローバルな平均プーリング(GAP)手法を用いて生成する。
画像認識タスクには、共分散プーリングがGAPよりも強力な表現能力を持つことを示す証拠が存在する。
残念なことに、画像認識で使われるような無秩序な共分散プールは、ビデオに固有の時空間構造をモデル化できない秩序のない代表である。
そこで本研究では,深層アーキテクチャの終端に挿入された時間適応型共分散ポーリング(TCP)を提案し,強力な映像表現を実現する。
特に, tcpは, 時間的注意モジュールを開発し, 時空間的特徴を適応的にキャリブレーションし, 近似的に注意的共分散表現を生成する。
そして、時間共分散プーリングは、注意共分散表現の時間的プーリングを行い、キャリブレーションされた特徴のフレーム内相関とフレーム間相互相関の両方を特徴付ける。
そのため、提案するTCPは複雑な時間的ダイナミクスを捉えることができる。
最後に、共分散表現の幾何を利用するために高速行列パワー正規化を導入する。
TCP はモデルに依存しず,任意のビデオアーキテクチャに柔軟に統合可能である点に注意が必要だ。
様々なビデオアーキテクチャを用いた6つのベンチマーク(Kineetics、Something V1、Charadesなど)の広範な実験は、TCPNetが強力な一般化能力を持ちながら、そのベンチマークよりも明らかに優れていることを示している。
ソースコードは公開されている。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。