論文の概要: Long-Short Temporal Modeling for Efficient Action Recognition
- arxiv url: http://arxiv.org/abs/2106.15787v1
- Date: Wed, 30 Jun 2021 02:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:34:22.206965
- Title: Long-Short Temporal Modeling for Efficient Action Recognition
- Title(参考訳): 効率的な行動認識のための長短時間モデル
- Authors: Liyu Wu, Yuexian Zou, Can Zhang
- Abstract要約: 本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
- 参考スコア(独自算出の注目度): 32.159784061961886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient long-short temporal modeling is key for enhancing the performance
of action recognition task. In this paper, we propose a new two-stream action
recognition network, termed as MENet, consisting of a Motion Enhancement (ME)
module and a Video-level Aggregation (VLA) module to achieve long-short
temporal modeling. Specifically, motion representations have been proved
effective in capturing short-term and high-frequency action. However, current
motion representations are calculated from adjacent frames, which may have poor
interpretation and bring useless information (noisy or blank). Thus, for
short-term motions, we design an efficient ME module to enhance the short-term
motions by mingling the motion saliency among neighboring segments. As for
long-term aggregations, VLA is adopted at the top of the appearance branch to
integrate the long-term dependencies across all segments. The two components of
MENet are complementary in temporal modeling. Extensive experiments are
conducted on UCF101 and HMDB51 benchmarks, which verify the effectiveness and
efficiency of our proposed MENet.
- Abstract(参考訳): アクション認識タスクの性能向上には,効率的な長短時間モデリングが重要である。
本稿では,menet (motion enhancement (me) モジュールとビデオレベルアグリゲーション (vla) モジュールからなる,長短時間モデルを実現する新しい2ストリーム動作認識ネットワークを提案する。
特に、運動表現は短期的および高頻度の作用を捉えるのに有効であることが証明されている。
しかし、現在の動き表現は隣接するフレームから計算され、解釈が不十分で、無駄な情報(ノイズや空白)をもたらす可能性がある。
そこで, 短期動作に対して, 近接するセグメント間の運動塩分濃度を混合することにより, 短期動作を向上させるための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
MENetの2つのコンポーネントは、時間モデリングにおいて補完的である。
提案したMENetの有効性と効率を検証するために,UCF101 と HMDB51 ベンチマークを用いて実験を行った。
関連論文リスト
- MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Behavior Recognition Based on the Integration of Multigranular Motion
Features [17.052997301790693]
マルチグラニュラ(IMG)運動特徴の統合に基づく新しい行動認識手法を提案する。
我々は,HMDB51,Something,UCF101など,いくつかの行動認識ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T02:05:26Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。