論文の概要: M2A: Motion Aware Attention for Accurate Video Action Recognition
- arxiv url: http://arxiv.org/abs/2111.09976v1
- Date: Thu, 18 Nov 2021 23:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 04:05:18.192275
- Title: M2A: Motion Aware Attention for Accurate Video Action Recognition
- Title(参考訳): M2A:正確な映像行動認識のための動き認識
- Authors: Brennan Gebotys, Alexander Wong, David A. Clausi
- Abstract要約: 我々は,動作特性を明示的に組み込んだM2A(Motion Aware Attention)と呼ばれる新しい注意機構を開発した。
M2Aは連続するフレーム間の動き情報を抽出し、フレーム全体で見られる動きパターンに注目して、ビデオ中の動作を正確に認識する。
提案したM2A機構を用いて,動作機構をアテンション機構に組み込むことで,異なるバックボーンアーキテクチャにおいて,トップ1の精度が15%から26%向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 86.67413715815744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in attention mechanisms have led to significant performance
improvements in a variety of areas in machine learning due to its ability to
enable the dynamic modeling of temporal sequences. A particular area in
computer vision that is likely to benefit greatly from the incorporation of
attention mechanisms in video action recognition. However, much of the current
research's focus on attention mechanisms have been on spatial and temporal
attention, which are unable to take advantage of the inherent motion found in
videos. Motivated by this, we develop a new attention mechanism called Motion
Aware Attention (M2A) that explicitly incorporates motion characteristics. More
specifically, M2A extracts motion information between consecutive frames and
utilizes attention to focus on the motion patterns found across frames to
accurately recognize actions in videos. The proposed M2A mechanism is simple to
implement and can be easily incorporated into any neural network backbone
architecture. We show that incorporating motion mechanisms with attention
mechanisms using the proposed M2A mechanism can lead to a +15% to +26%
improvement in top-1 accuracy across different backbone architectures, with
only a small increase in computational complexity. We further compared the
performance of M2A with other state-of-the-art motion and attention mechanisms
on the Something-Something V1 video action recognition benchmark. Experimental
results showed that M2A can lead to further improvements when combined with
other temporal mechanisms and that it outperforms other motion-only or
attention-only mechanisms by as much as +60% in top-1 accuracy for specific
classes in the benchmark.
- Abstract(参考訳): 注意機構の進歩は、時間的シーケンスの動的モデリングを可能にするため、機械学習の様々な領域において、大幅なパフォーマンス向上をもたらした。
コンピュータビジョンの特定の領域は、ビデオアクション認識における注意機構の導入から大きな恩恵を受ける可能性が高い。
しかし、現在の注意メカニズムに焦点をあてた研究の多くは、ビデオで見られる固有の動きを活用できない空間的・時間的注意に焦点が当てられている。
そこで我々は,運動特性を明示的に組み込む運動認識注意(m2a)と呼ばれる新しい注意機構を開発した。
より具体的には、m2aは連続するフレーム間の動き情報を抽出し、フレーム間の動きパターンに注目し、ビデオ内の動作を正確に認識する。
提案するm2aメカニズムは実装が簡単であり、任意のニューラルネットワークバックボーンアーキテクチャに容易に組み込むことができる。
提案したM2A機構を用いて動作機構をアテンション機構に組み込むことで,様々なバックボーンアーキテクチャにおけるトップ1の精度が15%から26%向上し,計算量もわずかに向上することを示した。
さらに,M2Aと他の最先端モーションおよび注意機構を,Something V1ビデオアクション認識ベンチマークで比較した。
実験の結果、M2Aは他の時間的メカニズムと組み合わせることでさらなる改善が得られ、ベンチマークの特定のクラスにおいて、最大で60%の精度で、他の動きのみまたは注意のみのメカニズムよりも優れていることがわかった。
関連論文リスト
- MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms [12.621553130655945]
我々は,注目マップを操作することで,シンプルかつ効果的な動作編集手法を多目的に開発する。
提案手法は,優れた説明性を備えた優れた生成・編集能力を有する。
論文 参考訳(メタデータ) (2024-10-24T17:59:45Z) - Assessing the Impact of Attention and Self-Attention Mechanisms on the
Classification of Skin Lesions [0.0]
注意モジュールと自己注意という,2種類の注意機構に注目した。
注意モジュールは各層入力テンソルの特徴を再重み付けするために使用される。
自己認識(Self-Attention)は、元々自然言語処理の分野で提案されていたもので、入力シーケンス内のすべての項目を関連付けることができる。
論文 参考訳(メタデータ) (2021-12-23T18:02:48Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z) - Class Semantics-based Attention for Action Detection [10.69685258736244]
アクションローカライゼーションネットワークは、しばしば機能エンコーダサブネットワークとローカライゼーションサブネットワークとして構成される。
本稿では,クラスセマンティックス・ベース・アテンション(CSA, Class Semantics-based Attention)という新しいアテンション・メカニズムを提案する。
我々の注意機構は、アクション検出タスクにおけるシャープ・アンド・エキサイティングのような、事前の自己注意モジュールよりも優れています。
論文 参考訳(メタデータ) (2021-09-06T17:22:46Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z) - Is Attention All What You Need? -- An Empirical Investigation on
Convolution-Based Active Memory and Self-Attention [7.967230034960396]
各種能動記憶機構がトランスフォーマーの自己注意に取って代わるかどうかを評価する。
実験の結果、アクティブメモリだけで言語モデリングの自己認識機構に匹敵する結果が得られることが示唆された。
特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで、自己注意とこれら2つの組み合わせよりも優れています。
論文 参考訳(メタデータ) (2019-12-27T02:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。