論文の概要: Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention
- arxiv url: http://arxiv.org/abs/2004.01278v1
- Date: Thu, 2 Apr 2020 21:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 13:06:26.610902
- Title: Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention
- Title(参考訳): 何、どこで、いつ見るかを知る:注意を向けた効率的なビデオアクションモデリング
- Authors: Juan-Manuel Perez-Rua and Brais Martinez and Xiatian Zhu and Antoine
Toisoul and Victor Escorcia and Tao Xiang
- Abstract要約: 注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 84.83632045374155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Attentive video modeling is essential for action recognition in unconstrained
videos due to their rich yet redundant information over space and time.
However, introducing attention in a deep neural network for action recognition
is challenging for two reasons. First, an effective attention module needs to
learn what (objects and their local motion patterns), where (spatially), and
when (temporally) to focus on. Second, a video attention module must be
efficient because existing action recognition models already suffer from high
computational cost. To address both challenges, a novel What-Where-When (W3)
video attention module is proposed. Departing from existing alternatives, our
W3 module models all three facets of video attention jointly. Crucially, it is
extremely efficient by factorizing the high-dimensional video feature data into
low-dimensional meaningful spaces (1D channel vector for `what' and 2D spatial
tensors for `where'), followed by lightweight temporal attention reasoning.
Extensive experiments show that our attention model brings significant
improvements to existing action recognition models, achieving new
state-of-the-art performance on a number of benchmarks.
- Abstract(参考訳): 注意ビデオモデリングは、空間と時間に関する豊富な冗長な情報のため、制約のないビデオにおけるアクション認識に不可欠である。
しかし、アクション認識のためのディープニューラルネットワークに注意を払うことは、2つの理由から難しい。
まず、効果的な注意モジュールは、何を(物体とその局所的な動きパターン)、どこで(空間的に)、いつ(時間的に)フォーカスするかを学ぶ必要がある。
第二に、既存のアクション認識モデルは計算コストが高いため、ビデオアテンションモジュールは効率的でなければならない。
どちらの課題にも対処すべく,what-where-when (w3) ビデオアテンションモジュールを提案する。
既存の代替製品から離れて、w3モジュールはビデオの3つの面を共同でモデル化します。
重要となるのは、高次元映像特徴データを低次元有意味空間(1dチャンネルベクトルは「what」、2d空間テンソルは「where」)に分解し、さらに軽量な時間的注意推論を行うことである。
大規模な実験により、我々の注意モデルは既存の行動認識モデルに大幅な改善をもたらし、多くのベンチマークで新しい最先端性能を実現した。
関連論文リスト
- Flatten: Video Action Recognition is an Image Classification task [15.518011818978074]
新たなビデオ表現アーキテクチャであるFlattenは、プラグイン・アンド・プレイモジュールとして機能し、任意の画像理解ネットワークにシームレスに統合できる。
一般的に使用されるデータセットの実験では、Flattenの埋め込みはオリジナルのモデルよりも大幅なパフォーマンス向上をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-08-17T14:59:58Z) - Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Efficient Spatialtemporal Context Modeling for Action Recognition [42.30158166919919]
本稿では,アクション認識のための高密度長範囲コンテキスト情報映像をモデル化するためのRCCA-3Dモジュールを提案する。
我々は, 水平方向, 垂直方向, 深さの各時間における同一線上の点間の関係をモデル化し, 3次元クリスクロス構造を形成する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
論文 参考訳(メタデータ) (2021-03-20T14:48:12Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - AttentionNAS: Spatiotemporal Attention Cell Search for Video
Classification [86.64702967379709]
本稿では,時間的注意のための新しい検索空間を提案する。これにより,検索アルゴリズムはセルの様々な設計選択を柔軟に探索することができる。
検出されたアテンションセルは既存のバックボーンネットワーク(例えばI3DやS3D)にシームレスに挿入することができ、Kinetics-600とMiTのデータセットでビデオの精度を2%以上改善することができる。
論文 参考訳(メタデータ) (2020-07-23T14:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。