論文の概要: Multi-Granularity Hand Action Detection
- arxiv url: http://arxiv.org/abs/2306.10858v2
- Date: Fri, 9 Aug 2024 18:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:08:32.383064
- Title: Multi-Granularity Hand Action Detection
- Title(参考訳): 多粒性ハンドアクション検出
- Authors: Ting Zhe, Jing Zhang, Yongqian Li, Yong Luo, Han Hu, Dacheng Tao,
- Abstract要約: FHA-Kitchensデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリがアノテートされている。
このデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリが注釈付けされている。
MG-HAD (End-to-End Multi-Granularity Hand Action Detection) を提案する。
- 参考スコア(独自算出の注目度): 58.88274905101276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting hand actions in videos is crucial for understanding video content and has diverse real-world applications. Existing approaches often focus on whole-body actions or coarse-grained action categories, lacking fine-grained hand-action localization information. To fill this gap, we introduce the FHA-Kitchens (Fine-Grained Hand Actions in Kitchen Scenes) dataset, providing both coarse- and fine-grained hand action categories along with localization annotations. This dataset comprises 2,377 video clips and 30,047 frames, annotated with approximately 200k bounding boxes and 880 action categories. Evaluation of existing action detection methods on FHA-Kitchens reveals varying generalization capabilities across different granularities. To handle multi-granularity in hand actions, we propose MG-HAD, an End-to-End Multi-Granularity Hand Action Detection method. It incorporates two new designs: Multi-dimensional Action Queries and Coarse-Fine Contrastive Denoising. Extensive experiments demonstrate MG-HAD's effectiveness for multi-granularity hand action detection, highlighting the significance of FHA-Kitchens for future research and real-world applications. The dataset and source code are available at https://github.com/superZ678/MG-HAD.
- Abstract(参考訳): ビデオ中の手の動きを検出することは、ビデオコンテンツを理解するのに不可欠であり、様々な現実世界の応用がある。
既存のアプローチは、ボディ全体のアクションや粗粒度のアクションカテゴリに焦点を合わせ、細かい手動のローカライゼーション情報を欠いていることが多い。
このギャップを埋めるために、我々はFHA-Kitchensデータセット(Kitchen ScenesのFine-Grained Hand Actions)を導入し、ローカライゼーションアノテーションとともに、粗い手アクションときめ細かな手アクションのカテゴリを提供する。
このデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリが注釈付けされている。
FHA-Kitchensにおける既存の動作検出手法の評価は、粒度によって異なる一般化能力を示す。
ハンドアクションにおける多粒度処理を行うために,エンド・ツー・エンドの多粒度ハンドアクション検出法MG-HADを提案する。
多次元Action QueriesとCoarse-Fine Contrastive Denoisingという2つの新しいデザインが組み込まれている。
大規模な実験では、MG-HADが多粒性ハンドアクション検出に有効であることを示し、将来の研究や実世界の応用におけるFHA-Kitchensの重要性を強調している。
データセットとソースコードはhttps://github.com/superZ678/MG-HADで入手できる。
関連論文リスト
- ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - CaSAR: Contact-aware Skeletal Action Recognition [47.249908147135855]
コンタクト対応骨格行動認識(CaSAR)と呼ばれる新しいフレームワークを提案する。
CaSARは空間情報を包含する手オブジェクト相互作用の新たな表現を使用する。
我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。
論文 参考訳(メタデータ) (2023-09-17T09:42:40Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。