論文の概要: SMART-Vision: Survey of Modern Action Recognition Techniques in Vision
- arxiv url: http://arxiv.org/abs/2501.13066v1
- Date: Wed, 22 Jan 2025 18:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:33.868960
- Title: SMART-Vision: Survey of Modern Action Recognition Techniques in Vision
- Title(参考訳): SMART-Vision:現代の視覚行動認識技術の調査
- Authors: Ali K. AlShami, Ryan Rabinowitz, Khang Lam, Yousra Shleibik, Melkamu Mersha, Terrance Boult, Jugal Kalita,
- Abstract要約: HAR(Human Action Recognition)は、コンピュータビジョンにおいて難しい分野である。
HARは幅広い適用性のためにかなりの関心を集めている。
本稿では,HAR の深層学習における革新が相互に補完することを示す,SMART-Vision 分類法を提案する。
- 参考スコア(独自算出の注目度): 5.766136300380401
- License:
- Abstract: Human Action Recognition (HAR) is a challenging domain in computer vision, involving recognizing complex patterns by analyzing the spatiotemporal dynamics of individuals' movements in videos. These patterns arise in sequential data, such as video frames, which are often essential to accurately distinguish actions that would be ambiguous in a single image. HAR has garnered considerable interest due to its broad applicability, ranging from robotics and surveillance systems to sports motion analysis, healthcare, and the burgeoning field of autonomous vehicles. While several taxonomies have been proposed to categorize HAR approaches in surveys, they often overlook hybrid methodologies and fail to demonstrate how different models incorporate various architectures and modalities. In this comprehensive survey, we present the novel SMART-Vision taxonomy, which illustrates how innovations in deep learning for HAR complement one another, leading to hybrid approaches beyond traditional categories. Our survey provides a clear roadmap from foundational HAR works to current state-of-the-art systems, highlighting emerging research directions and addressing unresolved challenges in discussion sections for architectures within the HAR domain. We provide details of the research datasets that various approaches used to measure and compare goodness HAR approaches. We also explore the rapidly emerging field of Open-HAR systems, which challenges HAR systems by presenting samples from unknown, novel classes during test time.
- Abstract(参考訳): HAR(Human Action Recognition)は、ビデオ中の個人の動きの時空間的ダイナミクスを分析することによって複雑なパターンを認識することを含む、コンピュータビジョンにおける挑戦的な領域である。
これらのパターンは、ビデオフレームのようなシーケンシャルなデータに現れ、多くの場合、単一の画像においてあいまいな動作を正確に区別するために必須である。
HARは、ロボット工学や監視システムからスポーツ運動分析、ヘルスケア、そして急成長する自動運転車分野まで、幅広い応用性のために、かなりの関心を集めてきた。
HARアプローチを調査で分類するためにいくつかの分類法が提案されているが、ハイブリッド手法を見落とし、異なるモデルがどのように様々なアーキテクチャやモダリティを組み込んでいるかを実証することができないことが多い。
本総説では,HARの深層学習における革新が相互に補完し合い,従来のカテゴリーを超えてハイブリッドなアプローチへと繋がることを示す,新たなSMART-Vision分類法を提案する。
我々の調査は、基礎的なHAR作業から現在の最先端システムへの明確なロードマップを提供し、新たな研究方向性を強調し、HARドメイン内のアーキテクチャに関する議論セクションで未解決の課題に対処します。
良質なHARアプローチを計測し比較するために様々なアプローチが用いられた研究データセットの詳細を提供する。
また、テスト期間中に未知の新しいクラスからサンプルを提示することで、HARシステムに挑戦するOpen-HARシステムの急速に発展する分野についても検討する。
関連論文リスト
- Generative Artificial Intelligence Meets Synthetic Aperture Radar: A Survey [49.29751866761522]
本稿では,GenAIとSARの交差点について検討する。
まず、SAR分野における一般的なデータ生成ベースのアプリケーションについて説明する。
次に、最新のGenAIモデルの概要を体系的にレビューする。
最後に、SARドメインの対応するアプリケーションも含まれる。
論文 参考訳(メタデータ) (2024-11-05T03:06:00Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities [2.916558661202724]
人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。
HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。
本稿は,2014年から2024年までのHARの最新の進歩に関する包括的調査である。
論文 参考訳(メタデータ) (2024-09-15T10:04:44Z) - Explainable Deep Learning Framework for Human Activity Recognition [3.9146761527401424]
本稿では,HARモデルの解釈性と有効性を高めるモデル非依存フレームワークを提案する。
競争力のあるデータ拡張を実装することで、我々のフレームワークはモデル決定の直感的でアクセスしやすい説明を提供する。
論文 参考訳(メタデータ) (2024-08-21T11:59:55Z) - A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - RNNs, CNNs and Transformers in Human Action Recognition: A Survey and a Hybrid Model [0.0]
HAR(Human Action Recognition)は、さまざまな領域にわたる人間の活動を監視するタスクである。
過去10年間で、HARの分野は、畳み込みニューラルネットワーク(CNN)を活用することで、かなりの進歩をみせた。
近年、コンピュータビジョンの領域は、視覚変換器(ViT)が強力なソリューションとして出現するのを目撃している。
論文 参考訳(メタデータ) (2024-06-02T17:09:59Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - A Survey of Graph-based Deep Learning for Anomaly Detection in
Distributed Systems [2.3551989288556774]
分散システムにおける異常を識別するグラフベースのアルゴリズムの可能性を探る。
私たちの目標の1つは、現実の課題に対処する能力を概念的に分析するグラフベースのアプローチについて、詳細な調査を行うことです。
本研究は,その分野における現状研究論文の概要と,その特性を比較比較・比較するものである。
論文 参考訳(メタデータ) (2022-06-08T20:19:28Z) - Scene Graph Generation: A Comprehensive Survey [35.80909746226258]
シーングラフは、その強力な意味表現とシーン理解への応用から研究の焦点となっている。
SGG(Scene Graph Generation)とは、画像を自動的にセマンティックなシーングラフにマッピングするタスクである。
本稿では,異なる入力モダリティをカバーする138の代表的な作品についてレビューし,既存の画像ベースSGGの手法を体系的に要約する。
論文 参考訳(メタデータ) (2022-01-03T00:55:33Z) - A Survey on Heterogeneous Graph Embedding: Methods, Techniques,
Applications and Sources [79.48829365560788]
異種情報ネットワーク (heterogenous information network) としても知られるヘテロジニアスグラフ (HGs) は、現実のシナリオにおいてユビキタス化されている。
HG埋め込みは、下流タスクのための不均一な構造と意味を保ちながら、低次元空間での表現を学習することを目的としている。
論文 参考訳(メタデータ) (2020-11-30T15:03:47Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。