論文の概要: Human Stone Toolmaking Action Grammar (HSTAG): A Challenging Benchmark for Fine-grained Motor Behavior Recognition
- arxiv url: http://arxiv.org/abs/2410.08410v1
- Date: Thu, 10 Oct 2024 22:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:26:42.394257
- Title: Human Stone Toolmaking Action Grammar (HSTAG): A Challenging Benchmark for Fine-grained Motor Behavior Recognition
- Title(参考訳): Human Stone Toolmaking Action Grammar (HSTAG): きめ細かい運動行動認識のためのベンチマーク
- Authors: Cheng Liu, Xuyang Yan, Zekun Zhang, Cheng Ding, Tianhao Zhao, Shaya Jannati, Cynthia Martinez, Dietrich Stout,
- Abstract要約: Human Stone Toolmaking Action Grammar (HSTAG) は18,739本のビデオクリップで構成され、石器製作における専門家の活動の4.5時間を記録している。
HSTAGは、2つのハンドヘルドオブジェクト間の複雑な相互作用の迅速な継承を理解するために、高度な人工知能技術の応用を調査するために使用することができる。
- 参考スコア(独自算出の注目度): 6.34778437927161
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action recognition has witnessed the development of a growing number of novel algorithms and datasets in the past decade. However, the majority of public benchmarks were constructed around activities of daily living and annotated at a rather coarse-grained level, which lacks diversity in domain-specific datasets, especially for rarely seen domains. In this paper, we introduced Human Stone Toolmaking Action Grammar (HSTAG), a meticulously annotated video dataset showcasing previously undocumented stone toolmaking behaviors, which can be used for investigating the applications of advanced artificial intelligence techniques in understanding a rapid succession of complex interactions between two hand-held objects. HSTAG consists of 18,739 video clips that record 4.5 hours of experts' activities in stone toolmaking. Its unique features include (i) brief action durations and frequent transitions, mirroring the rapid changes inherent in many motor behaviors; (ii) multiple angles of view and switches among multiple tools, increasing intra-class variability; (iii) unbalanced class distributions and high similarity among different action sequences, adding difficulty in capturing distinct patterns for each action. Several mainstream action recognition models are used to conduct experimental analysis, which showcases the challenges and uniqueness of HSTAG https://nyu.databrary.org/volume/1697.
- Abstract(参考訳): アクション認識は、過去10年間に多くの新しいアルゴリズムとデータセットの開発を目撃してきた。
しかし、ほとんどの公開ベンチマークは、日々の生活のアクティビティを中心に構築され、かなり粗いレベルで注釈付けされ、ドメイン固有のデータセットの多様性が欠如している。
本稿では,手持ちの2つの物体間の複雑な相互作用の迅速な継承を理解するために,高度な人工知能技術の応用を調査するために使用可能な,これまで文書化されていない石器加工行動を示す細かな注釈付きビデオデータセットであるHuman Stone Toolmaking Action Grammar (HSTAG)を紹介した。
HSTAGは18,739本のビデオクリップで構成され、石器製作における専門家の活動の4.5時間を記録している。
特有な特徴は
一 多くの運動行動に固有の急激な変化を反映した短時間の動作期間及び頻繁な遷移
(二 複数道具間の視角及びスイッチの多角化により、クラス内変動が増大すること。)
三 異なる行動系列間の不均衡なクラス分布と高い類似性により、各行動の異なるパターンを捉えることの難しさが増した。
HSTAG https://nyu.databrary.org/volume/1697の課題と独自性を示す実験分析のために、いくつかの主要なアクション認識モデルが使用されている。
関連論文リスト
- A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - Multi-level Contrast Network for Wearables-based Joint Activity
Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。
ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。
我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文 参考訳(メタデータ) (2022-08-16T05:39:02Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Multi-View Fusion Transformer for Sensor-Based Human Activity
Recognition [15.845205542668472]
センサに基づく人間活動認識(HAR)は、加速度計やジャイロスコープなどのマルチモーダルセンサから収集されたリッチな時系列データに基づいて、人間の活動を認識することを目的としている。
近年の深層学習手法は、時間的視点などのデータの一視点に焦点を合わせており、浅層学習法は、例えば統計的視点のような手工芸的特徴を利用する傾向にある。
本稿では,新しいアテンション機構とともに,MVFT(Multi-view fusion transformer)という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:15:22Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - A Tree-structure Convolutional Neural Network for Temporal Features
Exaction on Sensor-based Multi-resident Activity Recognition [4.619245607612873]
マルチレジデント活動認識(TSC-MRAR)のためのエンドツーエンド木構造畳み込みニューラルネットワークフレームワークを提案する。
まず、各サンプルをイベントとして扱い、スライディングウインドウに過去のセンサの読み取りを埋め込んだ現在のイベントを得る。
そして、時間的特徴を自動的に生成するために、木構造ネットワークを設計し、近くの読み物の時間的依存を導出する。
論文 参考訳(メタデータ) (2020-11-05T14:31:00Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - ActiLabel: A Combinatorial Transfer Learning Framework for Activity
Recognition [14.605223647792862]
ActiLabelは任意のドメインのイベントと異なるドメインのイベントの間の構造的類似性を学ぶフレームワークである。
3つの公開データセットに基づく実験は、最先端のトランスファー学習やディープラーニング手法よりもActiLabelの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-03-16T19:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。