論文の概要: ActAR: Actor-Driven Pose Embeddings for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2204.08671v1
- Date: Tue, 19 Apr 2022 05:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:29:43.128433
- Title: ActAR: Actor-Driven Pose Embeddings for Video Action Recognition
- Title(参考訳): ActAR:ビデオアクション認識のためのアクター駆動型ポーズ埋め込み
- Authors: Soufiane Lamghari, Guillaume-Alexandre Bilodeau, Nicolas Saunier
- Abstract要約: ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。
我々は,赤外スペクトルにおける効率的な人間の行動を認識することを同時に学習する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 12.043574473965318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition (HAR) in videos is one of the core tasks of video
understanding. Based on video sequences, the goal is to recognize actions
performed by humans. While HAR has received much attention in the visible
spectrum, action recognition in infrared videos is little studied. Accurate
recognition of human actions in the infrared domain is a highly challenging
task because of the redundant and indistinguishable texture features present in
the sequence. Furthermore, in some cases, challenges arise from the irrelevant
information induced by the presence of multiple active persons not contributing
to the actual action of interest. Therefore, most existing methods consider a
standard paradigm that does not take into account these challenges, which is in
some part due to the ambiguous definition of the recognition task in some
cases. In this paper, we propose a new method that simultaneously learns to
recognize efficiently human actions in the infrared spectrum, while
automatically identifying the key-actors performing the action without using
any prior knowledge or explicit annotations. Our method is composed of three
stages. In the first stage, optical flow-based key-actor identification is
performed. Then for each key-actor, we estimate key-poses that will guide the
frame selection process. A scale-invariant encoding process along with embedded
pose filtering are performed in order to enhance the quality of action
representations. Experimental results on InfAR dataset show that our proposed
model achieves promising recognition performance and learns useful action
representations.
- Abstract(参考訳): ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。
ビデオシーケンスに基づいて、人間の行動を認識することが目的である。
harは可視スペクトルで多くの注目を集めているが、赤外線ビデオでのアクション認識はほとんど研究されていない。
赤外領域における人間の行動の正確な認識は、配列に存在する冗長で識別不能なテクスチャの特徴のため、非常に難しい課題である。
さらに、実際の関心行動に寄与しない複数のアクティブな人物の存在によって引き起こされる無関係な情報から課題が生じる場合もある。
したがって、既存の手法の多くは、これらの課題を考慮しない標準パラダイムを考慮に入れており、これは一部のケースでは認識タスクの曖昧な定義のためである。
本稿では,従来の知識や明示的なアノテーションを使わずに行動を行うキーアクタを自動的に識別しながら,赤外線スペクトルにおける人間の行動の効率的な認識を同時に行う手法を提案する。
我々の方法は3つの段階で構成されている。
第1段階では、光フローベースのキーアクタ識別を行う。
そして、各キーアクタについて、フレーム選択プロセスを導くキー候補を推定する。
アクション表現の質を高めるために、埋め込みポーズフィルタリングと共にスケール不変符号化処理を行う。
infarデータセットにおける実験結果は,提案モデルが有望な認識性能を達成し,有用な動作表現を学習することを示す。
関連論文リスト
- A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - A Grid-based Representation for Human Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、コンピュータビジョンにおける基本的な研究課題である。
本稿では,行動の最も識別性の高い外観情報を効率的に符号化する行動認識手法を提案する。
提案手法は, モデルが人間の行動を正確に認識できることを示すために, いくつかのベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-17T18:25:00Z) - TinyVIRAT: Low-resolution Video Action Recognition [70.37277191524755]
現実世界の監視環境では、ビデオ内のアクションは幅広い解像度でキャプチャされる。
天然の低解像度アクティビティを含むベンチマークデータセットTinyVIRATを導入する。
本稿では,プログレッシブ・ジェネレーティブ・アプローチを用いたビデオにおける小さな動作を認識する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T21:09:18Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。