論文の概要: RNNs, CNNs and Transformers in Human Action Recognition: A Survey and A Hybrid Model
- arxiv url: http://arxiv.org/abs/2407.06162v1
- Date: Sun, 2 Jun 2024 17:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 14:07:46.900123
- Title: RNNs, CNNs and Transformers in Human Action Recognition: A Survey and A Hybrid Model
- Title(参考訳): 人間行動認識におけるRNN, CNN, トランスフォーマー : 調査とハイブリッドモデル
- Authors: Khaled Alomar, Halil Ibrahim Aysel, Xiaohao Cai,
- Abstract要約: HAR(Human Action Recognition)は、さまざまな領域にわたる人間の活動を監視するタスクである。
過去10年間で、HARの分野は、畳み込みニューラルネットワーク(CNN)を活用することで、かなりの進歩をみせた。
近年、コンピュータビジョンの領域は、視覚変換器(ViT)が強力なソリューションとして出現するのを目撃している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human Action Recognition (HAR) encompasses the task of monitoring human activities across various domains, including but not limited to medical, educational, entertainment, visual surveillance, video retrieval, and the identification of anomalous activities. Over the past decade, the field of HAR has witnessed substantial progress by leveraging Convolutional Neural Networks (CNNs) to effectively extract and comprehend intricate information, thereby enhancing the overall performance of HAR systems. Recently, the domain of computer vision has witnessed the emergence of Vision Transformers (ViTs) as a potent solution. The efficacy of transformer architecture has been validated beyond the confines of image analysis, extending their applicability to diverse video-related tasks. Notably, within this landscape, the research community has shown keen interest in HAR, acknowledging its manifold utility and widespread adoption across various domains. This article aims to present an encompassing survey that focuses on CNNs and the evolution of Recurrent Neural Networks (RNNs) to ViTs given their importance in the domain of HAR. By conducting a thorough examination of existing literature and exploring emerging trends, this study undertakes a critical analysis and synthesis of the accumulated knowledge in this field. Additionally, it investigates the ongoing efforts to develop hybrid approaches. Following this direction, this article presents a novel hybrid model that seeks to integrate the inherent strengths of CNNs and ViTs.
- Abstract(参考訳): HAR(Human Action Recognition)は、医療、教育、エンターテイメント、視覚的監視、ビデオ検索、異常な活動の特定など、さまざまな領域にわたる人間の活動を監視するタスクを含む。
過去10年間で、HARの分野は、畳み込みニューラルネットワーク(CNN)を活用して、複雑な情報を効果的に抽出し、理解し、HARシステム全体のパフォーマンスを向上させることで、かなりの進歩をみせてきた。
近年、コンピュータビジョンの領域は、視覚変換器(ViT)が強力なソリューションとして出現するのを目撃している。
トランスフォーマーアーキテクチャの有効性は、画像解析の限界を超えて検証され、その適用性は多様なビデオ関連タスクに拡張されている。
特に、この状況の中で、研究コミュニティはHARへの強い関心を示し、多様体ユーティリティーを認め、様々な領域で広く採用されている。
本稿では、HARの領域における重要性を考慮し、CNNとリカレントニューラルネットワーク(RNN)のViTへの進化に焦点を当てた包括的調査を提案する。
本研究は,既存の文献を徹底的に調査し,新たな研究動向を探求することによって,この分野で蓄積した知識の批判的分析と合成を行う。
さらに、ハイブリッドアプローチの開発に向けた継続的な取り組みについても検討している。
本稿では,CNN と ViT の本質的強みを統合するための,新しいハイブリッドモデルを提案する。
関連論文リスト
- From CNNs to Transformers in Multimodal Human Action Recognition: A Survey [23.674123304219822]
人間の行動認識はコンピュータビジョンにおいて最も広く研究されている研究問題の1つである。
近年の研究では、マルチモーダルデータを用いてこの問題に対処することで性能が向上することが示されている。
視覚モデリングにおけるトランスフォーマーの最近の増加は、アクション認識タスクのパラダイムシフトを引き起こしている。
論文 参考訳(メタデータ) (2024-05-22T02:11:18Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Human Activity Recognition Using Tools of Convolutional Neural Networks:
A State of the Art Review, Data Sets, Challenges and Future Prospects [7.275302131211702]
このレビューでは、人間の活動認識のための畳み込みニューラルネットワーク(CNN)という、幅広いディープニューラルネットワークアーキテクチャに基づく最近の研究を要約する。
レビューされたシステムは、マルチモーダルセンシングデバイス、スマートフォン、レーダー、ビジョンデバイスなどの入力デバイスの使用によって、4つのカテゴリに分類される。
論文 参考訳(メタデータ) (2022-02-02T18:52:13Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z) - Recurrent Vision Transformer for Solving Visual Reasoning Problems [13.658244210412352]
畳み込みニューラルネットワーク(CNN)のためのRecurrent Vision Transformer(RViT)モデルを導入する。
このネットワークは、リカレント接続の影響と推論タスクにおける空間的注意の影響により、同一の視覚的推論問題に対する競合的な結果が得られる。
包括的アブレーション研究により、ハイブリッドCNN + Transformerアーキテクチャの重要性が確認された。
論文 参考訳(メタデータ) (2021-11-29T15:01:09Z) - Efficient Visual Recognition with Deep Neural Networks: A Survey on
Recent Advances and New Directions [37.914102870280324]
ディープニューラルネットワーク(DNN)は、多くの具体的なタスクにおけるパフォーマンスを大幅に向上させた。
ディープニューラルネットワーク(DNN)は、多くの具体的なタスクにおけるパフォーマンスを大幅に向上させた。
本稿では,近年の進歩の展望と今後の方向性について提案する。
論文 参考訳(メタデータ) (2021-08-30T08:19:34Z) - Muti-view Mouse Social Behaviour Recognition with Deep Graphical Model [124.26611454540813]
マウスの社会的行動分析は神経変性疾患の治療効果を評価する貴重なツールである。
マウスの社会行動の豊かな記述を創出する可能性から、ネズミの観察にマルチビュービデオ記録を使用することは、ますます注目を集めている。
本稿では,ビュー固有のサブ構造とビュー共有サブ構造を協調的に学習する,新しい多視点潜在意識・動的識別モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T18:09:58Z) - Deep Learning for Community Detection: Progress, Challenges and
Opportunities [79.26787486888549]
この記事では、ディープニューラルネットワークにおける様々なフレームワーク、モデル、アルゴリズムの貢献について要約する。
この記事では、ディープニューラルネットワークにおける様々なフレームワーク、モデル、アルゴリズムの貢献について要約する。
論文 参考訳(メタデータ) (2020-05-17T11:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。