論文の概要: Learning Comprehensive Motion Representation for Action Recognition
- arxiv url: http://arxiv.org/abs/2103.12278v1
- Date: Tue, 23 Mar 2021 03:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:56:03.832837
- Title: Learning Comprehensive Motion Representation for Action Recognition
- Title(参考訳): 行動認識のための総合的動作表現の学習
- Authors: Mingyu Wu, Boyuan Jiang, Donghao Luo, Junchi Yan, Yabiao Wang, Ying
Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Xiaokang Yang
- Abstract要約: 2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
- 参考スコア(独自算出の注目度): 124.65403098534266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For action recognition learning, 2D CNN-based methods are efficient but may
yield redundant features due to applying the same 2D convolution kernel to each
frame. Recent efforts attempt to capture motion information by establishing
inter-frame connections while still suffering the limited temporal receptive
field or high latency. Moreover, the feature enhancement is often only
performed by channel or space dimension in action recognition. To address these
issues, we first devise a Channel-wise Motion Enhancement (CME) module to
adaptively emphasize the channels related to dynamic information with a
channel-wise gate vector. The channel gates generated by CME incorporate the
information from all the other frames in the video. We further propose a
Spatial-wise Motion Enhancement (SME) module to focus on the regions with the
critical target in motion, according to the point-to-point similarity between
adjacent feature maps. The intuition is that the change of background is
typically slower than the motion area. Both CME and SME have clear physical
meaning in capturing action clues. By integrating the two modules into the
off-the-shelf 2D network, we finally obtain a Comprehensive Motion
Representation (CMR) learning method for action recognition, which achieves
competitive performance on Something-Something V1 & V2 and Kinetics-400. On the
temporal reasoning datasets Something-Something V1 and V2, our method
outperforms the current state-of-the-art by 2.3% and 1.9% when using 16 frames
as input, respectively.
- Abstract(参考訳): 動作認識学習では、2次元cnnベースの手法は効率的であるが、各フレームに同じ2次元畳み込みカーネルを適用することで冗長な特徴が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
さらに、特徴増強は、しばしば、行動認識においてチャネルまたは空間次元によってのみ実行される。
これらの問題に対処するため,我々はまずチャネルワイド・ゲートベクトルを用いて動的情報に関連するチャネルを適応的に強調するチャネルワイド・モーション・エンハンスメント(CME)モジュールを考案した。
CMEが生成したチャネルゲートには、ビデオ内の他のすべてのフレームの情報が含まれている。
さらに,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に注目する空間的運動強調(SME)モジュールを提案する。
直感的には、背景の変化は典型的には運動領域よりも遅い。
CMEもSMEも、アクションの手がかりを捉える際に明確な物理的意味を持っている。
2つのモジュールをオフザシェルフ2Dネットワークに統合することにより,動作認識のための包括的動作表現(CMR)学習法が最終的に得られ,Something V1 & V2 と Kinetics-400 の競合性能を実現する。
時間的推論データセットでは,16フレームを入力として使用する場合,現在の最先端値を2.3%,1.9%上回っている。
関連論文リスト
- Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - Representation Learning for Compressed Video Action Recognition via
Attentive Cross-modal Interaction with Motion Enhancement [28.570085937225976]
本稿では,動作強化を伴う注意的クロスモーダルインタラクションネットワークという,新たなフレームワークを提案する。
RGBモダリティ(英語版)とモーションモダリティ(英語版)の2ストリームアーキテクチャ(英語版)に従う。
UCF-101、HMDB-51、Kinetics-400ベンチマークの実験では、MEACI-Netの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-05-07T06:26:49Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文 参考訳(メタデータ) (2020-08-03T17:40:17Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Actions as Moving Points [66.21507857877756]
我々は、MovingCenter Detector(MOC-detector)と呼ばれる概念的にシンプルで、効率的で、より精密なアクションチューブレット検出フレームワークを提案する。
動作情報が行動管検出を簡素化し,補助するという考えから,MOC検出器は3つの重要な頭部枝から構成される。
我々のMOC検出器は、JHMDBおよびUCF101-24データセット上のフレームmAPとビデオmAPの両方のメトリクスに対して、既存の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2020-01-14T03:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。