論文の概要: TDN: Temporal Difference Networks for Efficient Action Recognition
- arxiv url: http://arxiv.org/abs/2012.10071v2
- Date: Thu, 1 Apr 2021 01:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 03:25:11.766206
- Title: TDN: Temporal Difference Networks for Efficient Action Recognition
- Title(参考訳): TDN:効果的な行動認識のための時間差ネットワーク
- Authors: Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu
- Abstract要約: 本稿では,時間差分ネットワーク(TDN)と呼ばれる新しいビデオアーキテクチャを提案する。
我々のTDNの中核は、時間差演算子を明示的に活用することで効率的な時間差モジュール(TDM)を考案することである。
我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。
- 参考スコア(独自算出の注目度): 31.922001043405924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal modeling still remains challenging for action recognition in videos.
To mitigate this issue, this paper presents a new video architecture, termed as
Temporal Difference Network (TDN), with a focus on capturing multi-scale
temporal information for efficient action recognition. The core of our TDN is
to devise an efficient temporal module (TDM) by explicitly leveraging a
temporal difference operator, and systematically assess its effect on
short-term and long-term motion modeling. To fully capture temporal information
over the entire video, our TDN is established with a two-level difference
modeling paradigm. Specifically, for local motion modeling, temporal difference
over consecutive frames is used to supply 2D CNNs with finer motion pattern,
while for global motion modeling, temporal difference across segments is
incorporated to capture long-range structure for motion feature excitation. TDN
provides a simple and principled temporal modeling framework and could be
instantiated with the existing CNNs at a small extra computational cost. Our
TDN presents a new state of the art on the Something-Something V1 & V2 datasets
and is on par with the best performance on the Kinetics-400 dataset. In
addition, we conduct in-depth ablation studies and plot the visualization
results of our TDN, hopefully providing insightful analysis on temporal
difference modeling. We release the code at https://github.com/MCG-NJU/TDN.
- Abstract(参考訳): ビデオのアクション認識には、時間モデリングが依然として難しい。
この問題を軽減するため,本稿では,行動認識のためのマルチスケールの時間情報収集に着目し,時間差ネットワーク (tdn) と呼ばれる新しい映像アーキテクチャを提案する。
我々のTDNの中核は、時間差演算子を明示的に活用して効率的な時間的モジュール(TDM)を考案し、その短期的・長期的動作モデリングへの影響を体系的に評価することである。
ビデオ全体の時間的情報をフルキャプチャするために,2レベル差分モデリングパラダイムを用いてTDNを構築した。
具体的には、局所的な動きモデリングでは、連続フレーム上の時間差を用いて2次元CNNにより微細な動きパターンを供給し、グローバルな動きモデリングでは、セグメント間の時間差を組み込んで、動き特徴励起のための長距離構造をキャプチャする。
TDNは、シンプルで原則化された時間モデリングフレームワークを提供しており、計算コストの少ない既存のCNNでインスタンス化することができる。
我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。
さらに,詳細なアブレーション実験を行い,tdnの可視化結果のプロットを行い,時間差モデリングの洞察に富む解析を行うことを期待する。
コードをhttps://github.com/MCG-NJU/TDNでリリースします。
関連論文リスト
- DyFADet: Dynamic Feature Aggregation for Temporal Action Detection [70.37707797523723]
カーネル重みと受容フィールドを異なるタイムスタンプで適応できる新しい動的特徴集約(DFA)モジュールを構築した。
DFAを使用することで動的DADヘッド(DyHead)の開発を支援し、パラメータを調整したマルチスケール機能を適応的に集約する。
新しい動的TADモデルであるDyFADetは、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T15:29:10Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Temporal Graph Modeling for Skeleton-based Action Recognition [25.788239844759246]
複雑な時間的ダイナミクスを捉えるための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。
構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築する。
2つの大規模データセットで実験を行う。
論文 参考訳(メタデータ) (2020-12-16T09:02:47Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。