論文の概要: HAA500: Human-Centric Atomic Action Dataset with Curated Videos
- arxiv url: http://arxiv.org/abs/2009.05224v2
- Date: Mon, 16 Aug 2021 16:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:15:26.444713
- Title: HAA500: Human-Centric Atomic Action Dataset with Curated Videos
- Title(参考訳): HAA500:人間中心の原子活動データセット
- Authors: Jihoon Chung, Cheng-hsin Wuu, Hsuan-ru Yang, Yu-Wing Tai, Chi-Keung
Tang
- Abstract要約: 我々は、591K以上のラベル付きフレームを持つ500のクラスに対して、手動でアノテートされた人間中心の原子行動データセットであるHAA500に貢献する。
HaA500は既存の原子のアクションデータセットと異なり、粗粒の原子のアクションは「スロー」のような粗粒のアクションバーブでラベル付けされている。
- 参考スコア(独自算出の注目度): 55.59610026634897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We contribute HAA500, a manually annotated human-centric atomic action
dataset for action recognition on 500 classes with over 591K labeled frames. To
minimize ambiguities in action classification, HAA500 consists of highly
diversified classes of fine-grained atomic actions, where only consistent
actions fall under the same label, e.g., "Baseball Pitching" vs "Free Throw in
Basketball". Thus HAA500 is different from existing atomic action datasets,
where coarse-grained atomic actions were labeled with coarse action-verbs such
as "Throw". HAA500 has been carefully curated to capture the precise movement
of human figures with little class-irrelevant motions or spatio-temporal label
noises. The advantages of HAA500 are fourfold: 1) human-centric actions with a
high average of 69.7% detectable joints for the relevant human poses; 2) high
scalability since adding a new class can be done under 20-60 minutes; 3)
curated videos capturing essential elements of an atomic action without
irrelevant frames; 4) fine-grained atomic action classes. Our extensive
experiments including cross-data validation using datasets collected in the
wild demonstrate the clear benefits of human-centric and atomic characteristics
of HAA500, which enable training even a baseline deep learning model to improve
prediction by attending to atomic human poses. We detail the HAA500 dataset
statistics and collection methodology and compare quantitatively with existing
action recognition datasets.
- Abstract(参考訳): 591k以上のラベル付きフレームを持つ500クラスのアクション認識に,手作業でアノテートされた人間中心の原子アクションデータセットであるhaa500をコントリビュートする。
アクション分類の曖昧さを最小限に抑えるため、haa500は粒度の細かい原子アクションの高度に多様化したクラスで構成されており、一貫性のあるアクションだけが同じラベルの下に置かれている。
したがって、HAA500は既存の原子のアクションデータセットと異なり、粗粒の原子のアクションは「スロー」のような粗粒のアクションバーブでラベル付けされている。
HAA500は、無関係な動きや時空間ラベルのノイズの少ない人物の正確な動きを捉えるために慎重に調整されている。
HAA500の利点は4つある。
1) 高平均69.7%のヒトのポーズを検出可能な関節を有するヒト中心の行動
2) 新しいクラスの追加は20~60分以内でできるため、高いスケーラビリティ。
3) 無関係のフレームを使わずに,原子作用の本質的要素を捉えた映像
4) きめ細かい原子アクションクラス。
HAA500の人間中心特性と原子特性の明確な利点を実証し、ベースラインの深層学習モデルでさえも、原子の人間のポーズに出席することで予測を改善することができることを示す。
HAA500データセット統計と収集手法を詳述し、既存の行動認識データセットと定量的に比較する。
関連論文リスト
- Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Telling Stories for Common Sense Zero-Shot Action Recognition [11.166901260737786]
本稿では,WikiHowの記事から抽出した多様なアクションクラスに対するリッチなテキスト記述を含む,新しいデータセットであるStoriesを紹介する。
各クラスに対して、アクションを特徴付けるために必要なステップ、シーン、オブジェクト、動詞を詳述した多文の物語を抽出する。
このコンテキストデータは、アクション間のニュアンス付き関係のモデリングを可能にし、ゼロショット転送への道を開く。
論文 参考訳(メタデータ) (2023-09-29T15:34:39Z) - Modelling Spatio-Temporal Interactions for Compositional Action
Recognition [21.8767024220287]
人間は、アクションやバックグラウンドに関わるオブジェクトが変更されても、アクションを認識する能力を持っている。
本研究では,インタラクション中心のアプローチが構成的Somes-Elseデータセットに与える影響を示す。
人-物-物間相互作用モデリングのアプローチは,標準的な行動認識データセットにおいても有効である。
論文 参考訳(メタデータ) (2023-05-04T09:37:45Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。