論文の概要: Deep Learning Approaches for Human Action Recognition in Video Data
- arxiv url: http://arxiv.org/abs/2403.06810v1
- Date: Mon, 11 Mar 2024 15:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:35:13.450567
- Title: Deep Learning Approaches for Human Action Recognition in Video Data
- Title(参考訳): ビデオデータにおける人間の行動認識のためのディープラーニングアプローチ
- Authors: Yufei Xie
- Abstract要約: 本研究は、この課題に対処するために、様々なディープラーニングモデルの詳細な分析を行う。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究の結果は,頑健な人間の行動認識を実現するための複合モデルの可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 0.8080830346931087
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human action recognition in videos is a critical task with significant
implications for numerous applications, including surveillance, sports
analytics, and healthcare. The challenge lies in creating models that are both
precise in their recognition capabilities and efficient enough for practical
use. This study conducts an in-depth analysis of various deep learning models
to address this challenge. Utilizing a subset of the UCF101 Videos dataset, we
focus on Convolutional Neural Networks (CNNs), Recurrent Neural Networks
(RNNs), and Two-Stream ConvNets. The research reveals that while CNNs
effectively capture spatial features and RNNs encode temporal sequences,
Two-Stream ConvNets exhibit superior performance by integrating spatial and
temporal dimensions. These insights are distilled from the evaluation metrics
of accuracy, precision, recall, and F1-score. The results of this study
underscore the potential of composite models in achieving robust human action
recognition and suggest avenues for future research in optimizing these models
for real-world deployment.
- Abstract(参考訳): ビデオにおける人間の行動認識は、監視、スポーツ分析、医療など、多くのアプリケーションに重要な意味を持つ重要なタスクである。
課題は、認識能力が正確で、実用に十分な効率のモデルを作成することだ。
本研究は,この課題に対処するために,様々な深層学習モデルの詳細な分析を行う。
UCF101 Videosデータセットのサブセットを利用することで、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究は, cnnが空間的特徴を効果的に捉え, rnnが時間的シーケンスを符号化するのに対して, 時間的次元と時間的次元を統合することにより, 2-stream convnetが優れた性能を示すことを示す。
これらの知見は、精度、精度、リコール、F1スコアの評価指標から抽出される。
本研究の成果は,人間の行動認識の堅牢化における複合モデルの可能性を強調し,実世界展開のためのモデル最適化に向けた今後の研究への道筋を示唆するものである。
関連論文リスト
- How Effective are Self-Supervised Models for Contact Identification in Videos [6.527178779672975]
この研究は、8つの異なるCNNベースのビデオSSLモデルを使用して、特にビデオシーケンス内の物理的接触のインスタンスを特定することを目的としている。
Some-Something v2 (SSv2) と Epic-Kitchen (EK-100) のデータセットがこれらのアプローチを評価するために選ばれた。
論文 参考訳(メタデータ) (2024-08-01T12:08:20Z) - Efficient and Accurate Hyperspectral Image Demosaicing with Neural Network Architectures [3.386560551295746]
本研究では,ハイパースペクトル画像復調におけるニューラルネットワークアーキテクチャの有効性について検討した。
様々なネットワークモデルと修正を導入し、それらを従来の手法や既存の参照ネットワークアプローチと比較する。
その結果、我々のネットワークは、例外的な性能を示す両方のデータセットにおいて、参照モデルよりも優れるか、一致していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T08:02:49Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Network Comparison Study of Deep Activation Feature Discriminability
with Novel Objects [0.5076419064097732]
最先端のコンピュータビジョンアルゴリズムは、Deep Neural Networks(DNN)を特徴抽出に取り入れ、Deep Convolutional Activation Features(DeCAF)を作成する。
本研究では、6つの主要な視覚認識DNNアーキテクチャのDeCAF空間に符号化された新しい物体の視覚的外観の一般的な識別可能性について分析する。
論文 参考訳(メタデータ) (2022-02-08T07:40:53Z) - Scene Understanding for Autonomous Driving [0.0]
Detectron2で提示されたRetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の挙動を検討する。
関心のあるデータセット上でこれらのモデルを微調整した後、パフォーマンスの大幅な改善を観察します。
文脈外のデータセットを用いて異常な状況下で推論を行い、興味深い結果を示す。
論文 参考訳(メタデータ) (2021-05-11T09:50:05Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。