論文の概要: AssemblyHands-X: Modeling 3D Hand-Body Coordination for Understanding Bimanual Human Activities
- arxiv url: http://arxiv.org/abs/2509.23888v1
- Date: Sun, 28 Sep 2025 13:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.510935
- Title: AssemblyHands-X: Modeling 3D Hand-Body Coordination for Understanding Bimanual Human Activities
- Title(参考訳): AssemblyHands-X:バイマダルヒューマンアクティビティ理解のための3次元ハンドボディコーディネートモデリング
- Authors: Tatsuro Banno, Takehiko Ohkawa, Ruicong Liu, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: 本稿では,バイマニュアルアクティビティのためのマーカーレス3Dハンドボディベンチマークである AssemblyHands-X を紹介する。
このアプローチは多視点三角測量とSMPL-Xメッシュフィッティングを組み合わせることで,手と上半身の信頼性の高い3D登録を実現する。
提案実験により,ポーズに基づくアクション推論はビデオベースラインよりも効率的かつ正確であることが確認された。
- 参考スコア(独自算出の注目度): 27.634829042887358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual human activities inherently involve coordinated movements of both hands and body. However, the impact of this coordination in activity understanding has not been systematically evaluated due to the lack of suitable datasets. Such evaluation demands kinematic-level annotations (e.g., 3D pose) for the hands and body, yet existing 3D activity datasets typically annotate either hand or body pose. Another line of work employs marker-based motion capture to provide full-body pose, but the physical markers introduce visual artifacts, thereby limiting models' generalization to natural, markerless videos. To address these limitations, we present AssemblyHands-X, the first markerless 3D hand-body benchmark for bimanual activities, designed to study the effect of hand-body coordination for action recognition. We begin by constructing a pipeline for 3D pose annotation from synchronized multi-view videos. Our approach combines multi-view triangulation with SMPL-X mesh fitting, yielding reliable 3D registration of hands and upper body. We then validate different input representations (e.g., video, hand pose, body pose, or hand-body pose) across recent action recognition models based on graph convolution or spatio-temporal attention. Our extensive experiments show that pose-based action inference is more efficient and accurate than video baselines. Moreover, joint modeling of hand and body cues improves action recognition over using hands or upper body alone, highlighting the importance of modeling interdependent hand-body dynamics for a holistic understanding of bimanual activities.
- Abstract(参考訳): 人的活動は、本質的には手と体の協調した動きを伴う。
しかし、この調整が活動理解に与える影響は、適切なデータセットが欠如しているため、体系的に評価されていない。
このような評価は、手と体のキネマティックレベルのアノテーション(例えば3Dポーズ)を必要とするが、既存の3Dアクティビティデータセットは通常、手または体のポーズにアノテートする。
別の作品では、フルボディのポーズを提供するためにマーカーベースのモーションキャプチャが採用されているが、物理的なマーカーは視覚的なアーティファクトを導入し、モデルが自然でマーカーのないビデオに一般化することを制限している。
これらの制約に対処するため,バイマダルアクティビティのためのマーカーレス3Dハンドボディベンチマークである AssemblyHands-X を提案し,動作認識におけるハンドボディコーディネートの効果について検討した。
まず、同期マルチビュービデオから3Dポーズアノテーションのためのパイプラインを構築する。
提案手法は多視点三角測量とSMPL-Xメッシュフィッティングを組み合わせることで,手と上半身の信頼性の高い3D登録を実現する。
次に、グラフ畳み込みや時空間的注意に基づく最近の行動認識モデルにおいて、異なる入力表現(例えば、ビデオ、手ポーズ、体ポーズ、手ポーズ)を検証する。
我々の広範な実験により、ポーズに基づくアクション推論はビデオベースラインよりも効率的で正確であることが示されている。
さらに,手と身体の協調モデリングにより,手や上半身のみを用いた動作認識が向上し,人的活動の包括的理解を目的とした相互依存型身体動態のモデリングの重要性が強調された。
関連論文リスト
- BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Egocentric View Hand Action Recognition by Leveraging Hand Surface and
Hand Grasp Type [15.878905144552204]
このフレームワークは、手メッシュモデルの平均曲率を合成し、3次元空間における手表面形状を符号化する。
手のつかみタイプと手の平均曲率を用いることで,手の動き認識の性能が向上する。
論文 参考訳(メタデータ) (2021-09-08T17:12:02Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。