論文の概要: On the Utility of 3D Hand Poses for Action Recognition
- arxiv url: http://arxiv.org/abs/2403.09805v1
- Date: Thu, 14 Mar 2024 18:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:25:23.872277
- Title: On the Utility of 3D Hand Poses for Action Recognition
- Title(参考訳): 行動認識のための3次元ハンドケースの有用性について
- Authors: Md Salman Shamil, Dibyadip Chatterjee, Fadime Sener, Shugao Ma, Angela Yao,
- Abstract要約: 3Dハンドポーズは、アクション認識のための未探索のモダリティである。
我々は,新しいマルチモーダルトランスであるHandFormerを提案する。
HandFormerは、精密なモーションモデリングのための高時間分解能で3Dのポーズを組み合わせる。
我々は,アセンブラ101およびH2O上での最先端性能を新たに達成し,エゴセントリックな動作認識を大幅に改善した。
- 参考スコア(独自算出の注目度): 36.64538554919222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D hand poses are an under-explored modality for action recognition. Poses are compact yet informative and can greatly benefit applications with limited compute budgets. However, poses alone offer an incomplete understanding of actions, as they cannot fully capture objects and environments with which humans interact. To efficiently model hand-object interactions, we propose HandFormer, a novel multimodal transformer. HandFormer combines 3D hand poses at a high temporal resolution for fine-grained motion modeling with sparsely sampled RGB frames for encoding scene semantics. Observing the unique characteristics of hand poses, we temporally factorize hand modeling and represent each joint by its short-term trajectories. This factorized pose representation combined with sparse RGB samples is remarkably efficient and achieves high accuracy. Unimodal HandFormer with only hand poses outperforms existing skeleton-based methods at 5x fewer FLOPs. With RGB, we achieve new state-of-the-art performance on Assembly101 and H2O with significant improvements in egocentric action recognition.
- Abstract(参考訳): 3Dハンドポーズは、アクション認識のための未探索のモダリティである。
ケースはコンパクトだが有益であり、計算予算が限られているアプリケーションには大きなメリットがある。
しかし、ポーズだけでは、人間が相互作用する物体や環境を完全に捉えることができないため、アクションに対する不完全な理解を提供する。
手動物体の相互作用を効率的にモデル化するために,新しいマルチモーダルトランスであるHandFormerを提案する。
HandFormerは、細かな動きモデリングのための高時間分解能の3Dハンドポーズと、シーンセマンティクスを符号化するスパースサンプルのRGBフレームを組み合わせる。
ポーズのユニークな特徴を観察し、手の動きを時間的に分解し、各関節をその短期的軌跡で表現する。
この分解されたポーズ表現とスパースRGBのサンプルを組み合わせることは極めて効率的で高精度である。
手しか持たないUnimodal HandFormerは、既存のスケルトンベースのメソッドを5倍のFLOPで上回ります。
RGBでは,アセンブラ101とH2Oの最先端性能が向上し,エゴセントリックな動作認識が大幅に向上した。
関連論文リスト
- HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。