論文の概要: EAN: Event Adaptive Network for Enhanced Action Recognition
- arxiv url: http://arxiv.org/abs/2107.10771v1
- Date: Thu, 22 Jul 2021 15:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 12:52:33.110063
- Title: EAN: Event Adaptive Network for Enhanced Action Recognition
- Title(参考訳): EAN: 行動認識のためのイベント適応型ネットワーク
- Authors: Yuan Tian, Yichao Yan, Xiongkuo Min, Guo Lu, Guangtao Zhai, Guodong
Guo, and Zhiyong Gao
- Abstract要約: 本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
- 参考スコア(独自算出の注目度): 66.81780707955852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently modeling spatial-temporal information in videos is crucial for
action recognition. To achieve this goal, state-of-the-art methods typically
employ the convolution operator and the dense interaction modules such as
non-local blocks. However, these methods cannot accurately fit the diverse
events in videos. On the one hand, the adopted convolutions are with fixed
scales, thus struggling with events of various scales. On the other hand, the
dense interaction modeling paradigm only achieves sub-optimal performance as
action-irrelevant parts bring additional noises for the final prediction. In
this paper, we propose a unified action recognition framework to investigate
the dynamic nature of video content by introducing the following designs.
First, when extracting local cues, we generate the spatial-temporal kernels of
dynamic-scale to adaptively fit the diverse events. Second, to accurately
aggregate these cues into a global video representation, we propose to mine the
interactions only among a few selected foreground objects by a Transformer,
which yields a sparse paradigm. We call the proposed framework as Event
Adaptive Network (EAN) because both key designs are adaptive to the input video
content. To exploit the short-term motions within local segments, we propose a
novel and efficient Latent Motion Code (LMC) module, further improving the
performance of the framework. Extensive experiments on several large-scale
video datasets, e.g., Something-to-Something V1&V2, Kinetics, and Diving48,
verify that our models achieve state-of-the-art or competitive performances at
low FLOPs. Codes are available at:
https://github.com/tianyuan168326/EAN-Pytorch.
- Abstract(参考訳): 映像中の空間-時間情報の効率的なモデリングは行動認識に不可欠である。
この目的を達成するために、最先端の手法は典型的には畳み込み演算子と非局所ブロックのような密接な相互作用モジュールを用いる。
しかし、これらの手法はビデオ内の多様な事象に正確に適合しない。
一方、採用されている畳み込みは一定のスケールで行われており、様々なスケールのイベントに苦しめられている。
一方、密接な相互作用モデリングパラダイムは、動作非関連部品が最終的な予測に付加的なノイズをもたらすため、準最適性能を達成するのみである。
本稿では,映像コンテンツの動的性質を,以下の設計を取り入れた一貫した行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの空間-時間的核を生成し、多様な事象に適応的に適合させる。
第2に、これらの手がかりをグローバルビデオ表現に正確に集約するために、いくつかの選択された前景オブジェクト間のインタラクションのみをトランスフォーマーによってマイニングすることを提案する。
提案するフレームワークをイベント適応ネットワーク(Event Adaptive Network, EAN)と呼ぶ。
本稿では,局所セグメント内の短期動作を利用するために,新しい効率的な潜在動作コード(lmc)モジュールを提案し,フレームワークの性能をさらに向上させる。
いくつかの大規模ビデオデータセット(例えば、Somes-to-Something V1&V2, Kinetics, Diving48)に対する大規模な実験により、私たちのモデルは、低いFLOPで最先端または競争的なパフォーマンスを達成することを検証した。
コードはhttps://github.com/tianyuan168326/ean-pytorch。
関連論文リスト
- Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - An end-to-end multi-scale network for action prediction in videos [31.967024536359908]
エンド・ツー・エンド方式で部分的なビデオのアクション・クラスを予測するための効率的なマルチスケール・ネットワークを開発した。
我々のE2EMSNetは、BIT、HMDB51、UCF101という3つの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2022-12-31T06:58:41Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。