論文の概要: ACTION-Net: Multipath Excitation for Action Recognition
- arxiv url: http://arxiv.org/abs/2103.07372v1
- Date: Thu, 11 Mar 2021 16:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:19:23.028345
- Title: ACTION-Net: Multipath Excitation for Action Recognition
- Title(参考訳): ACTION-Net:アクション認識のためのマルチパス励起
- Authors: Zhengwei Wang, Qi She, Aljosa Smolic
- Abstract要約: 提案したAction-Netに2D CNNを装備し、計算コストを極端に制限したシンプルなACTION-Netを形成する。
ACTION-Netは、3つのバックボーン上で2D CNNよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 22.12530692711095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial-temporal, channel-wise, and motion patterns are three complementary
and crucial types of information for video action recognition. Conventional 2D
CNNs are computationally cheap but cannot catch temporal relationships; 3D CNNs
can achieve good performance but are computationally intensive. In this work,
we tackle this dilemma by designing a generic and effective module that can be
embedded into 2D CNNs. To this end, we propose a spAtio-temporal, Channel and
moTion excitatION (ACTION) module consisting of three paths: Spatio-Temporal
Excitation (STE) path, Channel Excitation (CE) path, and Motion Excitation (ME)
path. The STE path employs one channel 3D convolution to characterize
spatio-temporal representation. The CE path adaptively recalibrates
channel-wise feature responses by explicitly modeling interdependencies between
channels in terms of the temporal aspect. The ME path calculates feature-level
temporal differences, which is then utilized to excite motion-sensitive
channels. We equip 2D CNNs with the proposed ACTION module to form a simple yet
effective ACTION-Net with very limited extra computational cost. ACTION-Net is
demonstrated by consistently outperforming 2D CNN counterparts on three
backbones (i.e., ResNet-50, MobileNet V2 and BNInception) employing three
datasets (i.e., Something-Something V2, Jester, and EgoGesture). Codes are
available at \url{https://github.com/V-Sense/ACTION-Net}.
- Abstract(参考訳): 空間時空間、チャネル、モーションパターンは、ビデオアクション認識のための3つの補完的で重要なタイプの情報です。
従来の2D CNNは計算的には安価だが、時間的関係をキャッチできない。
本研究では,2d cnnに組み込むことのできる汎用的かつ効果的なモジュールを設計することで,このジレンマに取り組む。
そこで本研究では,Spatio-Temporal ExcitatION(STE)パス,Channel Excitation(CE)パス,Motion ExcitatION(ME)パスの3つのパスからなるspAtio-temporal,Channel and moTion excitatION(ACTION)モジュールを提案する。
STE経路は、時空間表現を特徴付けるために1つのチャネル3D畳み込みを用いる。
CEパスは、時間的側面の観点からチャネル間の相互依存性を明示的にモデリングすることにより、チャネルワイズな機能応答を適応的に再調整する。
MEパスは特徴レベルの時間差を計算し、運動感受性チャネルを励起する。
提案したActionモジュールを2D CNNに装備し,計算コストを極端に制限したシンプルなACTION-Netを構築する。
ACTION-Netは、3つのバックボーン(ResNet-50、MobileNet V2、BNInception)に3つのデータセット(Something V2、Jester、EgoGesture)を組み込んだ2D CNNよりも一貫して優れている。
コードは \url{https://github.com/V-Sense/ACTION-Net} で入手できる。
関連論文リスト
- Blockwise Temporal-Spatial Pathway Network [0.2538209532048866]
ブロックワイド時空間経路ネットワーク(BTSNet)と呼ばれる3次元CNNに基づく行動認識モデルを提案する。
画像認識のための空間受容場を適応的に選択する適応型カーネル選択モデルに着想を得た新しいモデルを構築した。
評価のために提案したモデルを,UCF-101,HMDB-51,SVW,EpicKitchenデータセットで検証した。
論文 参考訳(メタデータ) (2022-08-05T08:43:30Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - STSM: Spatio-Temporal Shift Module for Efficient Action Recognition [4.096670184726871]
本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
論文 参考訳(メタデータ) (2021-12-05T09:40:49Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。