論文の概要: A Survey on Backbones for Deep Video Action Recognition
- arxiv url: http://arxiv.org/abs/2405.05584v1
- Date: Thu, 9 May 2024 07:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:02:33.633611
- Title: A Survey on Backbones for Deep Video Action Recognition
- Title(参考訳): 深部映像行動認識のためのバックボーンの検討
- Authors: Zixuan Tang, Youjun Zhao, Yuhang Wen, Mengyuan Liu,
- Abstract要約: アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。
本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。
本論文では、RGBビデオフレームと光フローのモダリティを入力として使用する2ストリームネットワークと、異なる動作情報を抽出しながらRGBのモダリティを直接活用する3D畳み込みネットワークと、自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法の3つの部分について紹介する。
- 参考スコア(独自算出の注目度): 7.3390139372713445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is a key technology in building interactive metaverses. With the rapid development of deep learning, methods in action recognition have also achieved great advancement. Researchers design and implement the backbones referring to multiple standpoints, which leads to the diversity of methods and encountering new challenges. This paper reviews several action recognition methods based on deep neural networks. We introduce these methods in three parts: 1) Two-Streams networks and their variants, which, specifically in this paper, use RGB video frame and optical flow modality as input; 2) 3D convolutional networks, which make efforts in taking advantage of RGB modality directly while extracting different motion information is no longer necessary; 3) Transformer-based methods, which introduce the model from natural language processing into computer vision and video understanding. We offer objective sights in this review and hopefully provide a reference for future research.
- Abstract(参考訳): アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。
ディープラーニングの急速な発展に伴い、行動認識の手法も大きな進歩を遂げた。
研究者は、複数の視点を参照するバックボーンを設計し、実装する。
本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。
これらの手法を3つの部分で紹介する。
1)2ストリームネットワークとその変種,特に本稿では,RGBビデオフレームと光フローモダリティを入力として使用する。
2 異なる動き情報を抽出しながらRGBのモダリティを直接活用しようとする3次元畳み込みネットワークは、もはや不要である。
3) 自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法。
このレビューで客観的な視点を提供し、将来の研究への参考となることを願っています。
関連論文リスト
- Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Human Action Recognition using Local Two-Stream Convolution Neural
Network Features and Support Vector Machines [0.0]
本稿では,ビデオにおける人間の行動認識をシンプルかつ効果的に行う方法を提案する。
提案手法は、最先端の3次元畳み込みニューラルネットワークを用いて局所的な外観と運動の特徴を別々に抽出する。
我々は,SVMの利点を実証的に示すために,3つの共通ベンチマークデータセットを広範囲に評価する。
論文 参考訳(メタデータ) (2020-02-19T17:26:32Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。