論文の概要: A Comprehensive Study of Deep Video Action Recognition
- arxiv url: http://arxiv.org/abs/2012.06567v1
- Date: Fri, 11 Dec 2020 18:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:52:00.719004
- Title: A Comprehensive Study of Deep Video Action Recognition
- Title(参考訳): ディープビデオ行動認識に関する総合的研究
- Authors: Yi Zhu, Xinyu Li, Chunhui Liu, Mohammadreza Zolfaghari, Yuanjun Xiong,
Chongruo Wu, Zhi Zhang, Joseph Tighe, R. Manmatha, Mu Li
- Abstract要約: ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
- 参考スコア(独自算出の注目度): 35.7068977497202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action recognition is one of the representative tasks for video
understanding. Over the last decade, we have witnessed great advancements in
video action recognition thanks to the emergence of deep learning. But we also
encountered new challenges, including modeling long-range temporal information
in videos, high computation costs, and incomparable results due to datasets and
evaluation protocol variances. In this paper, we provide a comprehensive survey
of over 200 existing papers on deep learning for video action recognition. We
first introduce the 17 video action recognition datasets that influenced the
design of models. Then we present video action recognition models in
chronological order: starting with early attempts at adapting deep learning,
then to the two-stream networks, followed by the adoption of 3D convolutional
kernels, and finally to the recent compute-efficient models. In addition, we
benchmark popular methods on several representative datasets and release code
for reproducibility. In the end, we discuss open problems and shed light on
opportunities for video action recognition to facilitate new research ideas.
- Abstract(参考訳): ビデオ動作認識は,映像理解における代表的なタスクの一つである。
過去10年間で私たちは、ディープラーニングの出現により、ビデオアクション認識の大幅な進歩を目の当たりにしてきた。
しかし,ビデオにおける長期時間情報のモデル化,高い計算コスト,データセットによる比較不能な結果,評価プロトコルのばらつきなど,新たな課題に遭遇した。
本稿では,映像行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
まず,モデル設計に影響を与える17のアクション認識データセットを紹介する。
次に、ビデオ行動認識モデルを時系列順に提示する: ディープラーニングの早期適用から始め、2ストリームネットワークへ、続いて3D畳み込みカーネルの採用、そして最近では計算効率の高いモデルへ。
さらに、いくつかの代表的なデータセットと再現性のためのリリースコードに対して、人気のあるメソッドをベンチマークする。
最後に、オープンな問題について議論し、新しい研究アイデアを促進するビデオアクション認識の機会を明らかにした。
関連論文リスト
- A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - A Survey on Backbones for Deep Video Action Recognition [7.3390139372713445]
アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。
本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。
本論文では、RGBビデオフレームと光フローのモダリティを入力として使用する2ストリームネットワークと、異なる動作情報を抽出しながらRGBのモダリティを直接活用する3D畳み込みネットワークと、自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法の3つの部分について紹介する。
論文 参考訳(メタデータ) (2024-05-09T07:20:36Z) - Exploring Explainability in Video Action Recognition [5.7782784592048575]
ビデオ行動認識と画像分類はコンピュータビジョンの基本課題である。
Video-TCAVは、ビデオ行動認識モデルの意思決定プロセスにおいて、特定の概念の重要性を定量化することを目的としている。
本稿では,ビデオ-TCAVテストにおいて,映像行動認識に関連する空間的・時間的概念を生成するための機械支援手法を提案する。
論文 参考訳(メタデータ) (2024-04-13T19:34:14Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - TinyVIRAT: Low-resolution Video Action Recognition [70.37277191524755]
現実世界の監視環境では、ビデオ内のアクションは幅広い解像度でキャプチャされる。
天然の低解像度アクティビティを含むベンチマークデータセットTinyVIRATを導入する。
本稿では,プログレッシブ・ジェネレーティブ・アプローチを用いたビデオにおける小さな動作を認識する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T21:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。