論文の概要: A Grid-based Representation for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2010.08841v2
- Date: Thu, 29 Oct 2020 14:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:06:54.700581
- Title: A Grid-based Representation for Human Action Recognition
- Title(参考訳): 人間の行動認識のためのグリッドベース表現
- Authors: Soufiane Lamghari, Guillaume-Alexandre Bilodeau, Nicolas Saunier
- Abstract要約: ビデオにおけるヒューマンアクション認識(HAR)は、コンピュータビジョンにおける基本的な研究課題である。
本稿では,行動の最も識別性の高い外観情報を効率的に符号化する行動認識手法を提案する。
提案手法は, モデルが人間の行動を正確に認識できることを示すために, いくつかのベンチマークデータセットで検証される。
- 参考スコア(独自算出の注目度): 12.043574473965318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition (HAR) in videos is a fundamental research topic in
computer vision. It consists mainly in understanding actions performed by
humans based on a sequence of visual observations. In recent years, HAR have
witnessed significant progress, especially with the emergence of deep learning
models. However, most of existing approaches for action recognition rely on
information that is not always relevant for this task, and are limited in the
way they fuse the temporal information. In this paper, we propose a novel
method for human action recognition that encodes efficiently the most
discriminative appearance information of an action with explicit attention on
representative pose features, into a new compact grid representation. Our GRAR
(Grid-based Representation for Action Recognition) method is tested on several
benchmark datasets demonstrating that our model can accurately recognize human
actions, despite intra-class appearance variations and occlusion challenges.
- Abstract(参考訳): ビデオにおけるヒューマンアクション認識(HAR)はコンピュータビジョンにおける基本的な研究課題である。
主に視覚的な観察に基づく人間の行動を理解するために構成される。
近年では、特にディープラーニングモデルの出現によって、harは大きな進歩を遂げている。
しかしながら、既存のアクション認識のアプローチのほとんどは、このタスクに必ずしも関連しない情報に依存しており、時間的情報を融合する方法に制限されている。
本稿では,代表的なポーズ特徴に着目した行動の最も識別的な出現情報を,新しいコンパクトグリッド表現に効率的にエンコードする新しいヒューマンアクション認識法を提案する。
我々のGRAR(Grid-based Representation for Action Recognition)法は,クラス内外見の違いやオクルージョンの問題にもかかわらず,我々のモデルが人間の行動を正確に認識できることを,いくつかのベンチマークデータセットで検証した。
関連論文リスト
- Are Visual-Language Models Effective in Action Recognition? A Comparative Study [22.97135293252601]
本稿では,最先端のビジョン基盤モデルに関する大規模研究と知見を提供する。
ゼロショットとフレームワイドのアクション認識タスクへの転送能力を比較する。
最近の微粒な人間中心の行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2024-10-22T16:28:21Z) - A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Video-based Human Action Recognition using Deep Learning: A Review [4.976815699476327]
人間の行動認識はコンピュータビジョンにおける重要な応用分野である。
ディープラーニングはコンピュータビジョンコミュニティによって特に注目されている。
本稿では,深層学習技術を用いた映像解析による行動認識の現状について概説する。
論文 参考訳(メタデータ) (2022-08-07T17:12:12Z) - ActAR: Actor-Driven Pose Embeddings for Video Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。
我々は,赤外スペクトルにおける効率的な人間の行動を認識することを同時に学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-19T05:12:24Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。