論文の概要: TEA: Temporal Excitation and Aggregation for Action Recognition
- arxiv url: http://arxiv.org/abs/2004.01398v1
- Date: Fri, 3 Apr 2020 06:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:38:11.197473
- Title: TEA: Temporal Excitation and Aggregation for Action Recognition
- Title(参考訳): tea: 行動認識のための時間的興奮と集約
- Authors: Yan Li and Bin Ji and Xintian Shi and Jianguo Zhang and Bin Kang and
Limin Wang
- Abstract要約: 本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
- 参考スコア(独自算出の注目度): 31.076707274791957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal modeling is key for action recognition in videos. It normally
considers both short-range motions and long-range aggregations. In this paper,
we propose a Temporal Excitation and Aggregation (TEA) block, including a
motion excitation (ME) module and a multiple temporal aggregation (MTA) module,
specifically designed to capture both short- and long-range temporal evolution.
In particular, for short-range motion modeling, the ME module calculates the
feature-level temporal differences from spatiotemporal features. It then
utilizes the differences to excite the motion-sensitive channels of the
features. The long-range temporal aggregations in previous works are typically
achieved by stacking a large number of local temporal convolutions. Each
convolution processes a local temporal window at a time. In contrast, the MTA
module proposes to deform the local convolution to a group of sub-convolutions,
forming a hierarchical residual architecture. Without introducing additional
parameters, the features will be processed with a series of sub-convolutions,
and each frame could complete multiple temporal aggregations with
neighborhoods. The final equivalent receptive field of temporal dimension is
accordingly enlarged, which is capable of modeling the long-range temporal
relationship over distant frames. The two components of the TEA block are
complementary in temporal modeling. Finally, our approach achieves impressive
results at low FLOPs on several action recognition benchmarks, such as
Kinetics, Something-Something, HMDB51, and UCF101, which confirms its
effectiveness and efficiency.
- Abstract(参考訳): 時間モデリングはビデオにおける行動認識の鍵となる。
通常、短距離運動と長距離集合の両方を考える。
本稿では,動作励起(ME)モジュールとMTA(Multiple temporal aggregate)モジュールを含む時間的興奮・集約(TEA)ブロックを提案する。
特に、近距離運動モデリングでは、meモジュールは時空間的特徴と特徴レベルの時間的差異を計算する。
違いを利用して、特徴の動作に敏感なチャンネルをエキサイティングする。
以前の作品における長距離時間的集約は、典型的には多くの局所時間的畳み込みを積み重ねることによって達成される。
各畳み込みは局所的な時間窓を一度に処理する。
対照的に、MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残留アーキテクチャを形成することを提案している。
追加パラメータを導入することなく、これらの特徴は一連のサブ畳み込みで処理され、各フレームは近隣の複数の時間的集約を完了できる。
時間次元の最終的な等価受容場は拡大され、遠方フレーム上の長距離時間関係をモデル化することができる。
TEAブロックの2つのコンポーネントは、時間モデリングにおいて相補的である。
最後に,提案手法は,動作認識ベンチマーク(Kineetics, something-Something, HMDB51, UCF101など)において,FLOPの低い性能で優れた結果が得られた。
関連論文リスト
- A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition [16.287968292213563]
スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-01-19T08:34:04Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。