論文の概要: A Comprehensive Study of Deep Video Action Recognition
- arxiv url: http://arxiv.org/abs/2012.06567v1
- Date: Fri, 11 Dec 2020 18:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:52:00.719004
- Title: A Comprehensive Study of Deep Video Action Recognition
- Title(参考訳): ディープビデオ行動認識に関する総合的研究
- Authors: Yi Zhu, Xinyu Li, Chunhui Liu, Mohammadreza Zolfaghari, Yuanjun Xiong,
Chongruo Wu, Zhi Zhang, Joseph Tighe, R. Manmatha, Mu Li
- Abstract要約: ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
- 参考スコア(独自算出の注目度): 35.7068977497202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action recognition is one of the representative tasks for video
understanding. Over the last decade, we have witnessed great advancements in
video action recognition thanks to the emergence of deep learning. But we also
encountered new challenges, including modeling long-range temporal information
in videos, high computation costs, and incomparable results due to datasets and
evaluation protocol variances. In this paper, we provide a comprehensive survey
of over 200 existing papers on deep learning for video action recognition. We
first introduce the 17 video action recognition datasets that influenced the
design of models. Then we present video action recognition models in
chronological order: starting with early attempts at adapting deep learning,
then to the two-stream networks, followed by the adoption of 3D convolutional
kernels, and finally to the recent compute-efficient models. In addition, we
benchmark popular methods on several representative datasets and release code
for reproducibility. In the end, we discuss open problems and shed light on
opportunities for video action recognition to facilitate new research ideas.
- Abstract(参考訳): ビデオ動作認識は,映像理解における代表的なタスクの一つである。
過去10年間で私たちは、ディープラーニングの出現により、ビデオアクション認識の大幅な進歩を目の当たりにしてきた。
しかし,ビデオにおける長期時間情報のモデル化,高い計算コスト,データセットによる比較不能な結果,評価プロトコルのばらつきなど,新たな課題に遭遇した。
本稿では,映像行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
まず,モデル設計に影響を与える17のアクション認識データセットを紹介する。
次に、ビデオ行動認識モデルを時系列順に提示する: ディープラーニングの早期適用から始め、2ストリームネットワークへ、続いて3D畳み込みカーネルの採用、そして最近では計算効率の高いモデルへ。
さらに、いくつかの代表的なデータセットと再現性のためのリリースコードに対して、人気のあるメソッドをベンチマークする。
最後に、オープンな問題について議論し、新しい研究アイデアを促進するビデオアクション認識の機会を明らかにした。
関連論文リスト
- Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - Multimodal Short Video Rumor Detection System Based on Contrastive
Learning [3.4192832062683842]
中国のショートビデオプラットフォームは、フェイクニュースの拡散の場として徐々に肥大化してきた。
短いビデオの噂を区別することは、大量の情報と共有機能のために大きな課題となる。
本研究グループは,マルチモーダルな特徴融合と外部知識の統合を包含する方法論を提案する。
論文 参考訳(メタデータ) (2023-04-17T16:07:00Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - TinyVIRAT: Low-resolution Video Action Recognition [70.37277191524755]
現実世界の監視環境では、ビデオ内のアクションは幅広い解像度でキャプチャされる。
天然の低解像度アクティビティを含むベンチマークデータセットTinyVIRATを導入する。
本稿では,プログレッシブ・ジェネレーティブ・アプローチを用いたビデオにおける小さな動作を認識する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T21:09:18Z) - ARID: A New Dataset for Recognizing Action in the Dark [19.010874017607247]
本稿では,ダークビデオにおける行動認識の課題について考察する。
3,780本以上のビデオクリップと11のアクションカテゴリで構成されている。
私たちの知る限りでは、ダークビデオにおける人間の行動に焦点を当てた最初のデータセットです。
論文 参考訳(メタデータ) (2020-06-06T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。