論文の概要: TAM: Temporal Adaptive Module for Video Recognition
- arxiv url: http://arxiv.org/abs/2005.06803v3
- Date: Wed, 18 Aug 2021 12:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 05:15:15.845049
- Title: TAM: Temporal Adaptive Module for Video Recognition
- Title(参考訳): TAM:ビデオ認識のための時間適応モジュール
- Authors: Zhaoyang Liu, Limin Wang, Wayne Wu, Chen Qian, Tong Lu
- Abstract要約: 時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 60.83208364110288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video data is with complex temporal dynamics due to various factors such as
camera motion, speed variation, and different activities. To effectively
capture this diverse motion pattern, this paper presents a new temporal
adaptive module ({\bf TAM}) to generate video-specific temporal kernels based
on its own feature map. TAM proposes a unique two-level adaptive modeling
scheme by decoupling the dynamic kernel into a location sensitive importance
map and a location invariant aggregation weight. The importance map is learned
in a local temporal window to capture short-term information, while the
aggregation weight is generated from a global view with a focus on long-term
structure. TAM is a modular block and could be integrated into 2D CNNs to yield
a powerful video architecture (TANet) with a very small extra computational
cost. The extensive experiments on Kinetics-400 and Something-Something
datasets demonstrate that our TAM outperforms other temporal modeling methods
consistently, and achieves the state-of-the-art performance under the similar
complexity. The code is available at \url{
https://github.com/liu-zhy/temporal-adaptive-module}.
- Abstract(参考訳): ビデオデータは、カメラの動き、速度の変化、さまざまなアクティビティなどの様々な要因により、複雑な時間的ダイナミクスを持つ。
本稿では,この多様な動作パターンを効果的に捉えるために,ビデオ固有の時間的カーネルを生成するための新しい時間的適応モジュール({\bf TAM})を提案する。
TAMは、動的カーネルを位置依存重要写像と位置不変集約重みに分解することで、ユニークな2レベル適応モデルを提案する。
重要度マップは、局所的な時間的ウィンドウで学習し、短期的な情報を取得する一方、集約重みは、長期構造に焦点をあてたグローバルな視点から生成される。
TAMはモジュラーブロックであり、2D CNNに統合することで、非常に少ない計算コストで強力なビデオアーキテクチャ(TANet)を実現することができる。
Kinetics-400 と something-Something データセットに関する広範な実験により、我々の TAM は、他の時間的モデリング手法を一貫して上回り、同様の複雑さの下で最先端のパフォーマンスを達成することを示した。
コードは \url{ https://github.com/liu-zhy/temporal-adaptive-module} で入手できる。
関連論文リスト
- Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - TDN: Temporal Difference Networks for Efficient Action Recognition [31.922001043405924]
本稿では,時間差分ネットワーク(TDN)と呼ばれる新しいビデオアーキテクチャを提案する。
我々のTDNの中核は、時間差演算子を明示的に活用することで効率的な時間差モジュール(TDM)を考案することである。
我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。
論文 参考訳(メタデータ) (2020-12-18T06:31:08Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。