論文の概要: HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction
- arxiv url: http://arxiv.org/abs/2406.06843v3
- Date: Wed, 04 Dec 2024 21:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:24.445434
- Title: HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction
- Title(参考訳): HO-Cap:手-手-手のインタラクションの3次元再構成と姿勢追跡のためのキャプチャシステムとデータセット
- Authors: Jikai Wang, Qifan Zhang, Yu-Wei Chao, Bowen Wen, Xiaohu Guo, Yu Xiang,
- Abstract要約: ビデオ中の手や物体の3次元再構成とポーズトラッキングのためのデータキャプチャシステムと新しいデータセットHO-Capを導入する。
システムは複数のRGB-DカメラとHoloLensヘッドセットをデータ収集に利用し、高価な3Dスキャナーやモキャップシステムの使用を避ける。
ビデオ中の手や物体の形状やポーズをアノテートする半自動手法を提案し,手動ラベリングと比較してアノテーションの時間を大幅に短縮する。
- 参考スコア(独自算出の注目度): 16.363878619678367
- License:
- Abstract: We introduce a data capture system and a new dataset, HO-Cap, for 3D reconstruction and pose tracking of hands and objects in videos. The system leverages multiple RGB-D cameras and a HoloLens headset for data collection, avoiding the use of expensive 3D scanners or mocap systems. We propose a semi-automatic method for annotating the shape and pose of hands and objects in the collected videos, significantly reducing the annotation time compared to manual labeling. With this system, we captured a video dataset of humans interacting with objects to perform various tasks, including simple pick-and-place actions, handovers between hands, and using objects according to their affordance, which can serve as human demonstrations for research in embodied AI and robot manipulation. Our data capture setup and annotation framework will be available for the community to use in reconstructing 3D shapes of objects and human hands and tracking their poses in videos.
- Abstract(参考訳): ビデオ中の手や物体の3次元再構成とポーズトラッキングのためのデータキャプチャシステムと新しいデータセットHO-Capを導入する。
システムは複数のRGB-DカメラとHoloLensヘッドセットをデータ収集に利用し、高価な3Dスキャナーやモキャップシステムの使用を避ける。
ビデオ中の手や物体の形状やポーズをアノテートする半自動手法を提案し,手動ラベリングと比較してアノテーションの時間を大幅に短縮する。
このシステムでは、簡単なピック・アンド・プレイス・アクション、手作業のハンドオーバ、手頃な時間に応じたオブジェクトの使用など、AIやロボット操作の研究のための人間のデモとして機能するさまざまなタスクを行うために、オブジェクトと対話する人間のビデオデータセットをキャプチャした。
データキャプチャのセットアップとアノテーションのフレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、彼らのポーズをビデオで追跡するために利用できる。
関連論文リスト
- HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos [9.513100627302755]
我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューRGB/モノクローム画像ストリームの833分以上(3.7M画像以上)を提供し、33の多様な剛体オブジェクトと対話する19人の被験者を示している。
実験では,3Dハンドトラッキング,6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-28T14:09:42Z) - Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking [7.443420525809604]
我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューのRGB/モノクロ画像ストリームを833分以上提供し、19人の被験者が33の多様な剛体オブジェクトと対話していることを示している。
単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T21:38:17Z) - ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions [10.364340631868322]
そこで我々は,人間と物体の動的3次元運動を,共通のホーム環境内で捉えるために設計したParaHomeシステムを紹介した。
我々のシステムは70台のRGBカメラとIMUベースのボディスーツやハンドモーションキャプチャーグローブなどのウェアラブルモーションキャプチャー装置を備えた多視点セットアップを備えている。
ParaHomeシステムを利用することで、38人の参加者とともに、207回のキャプチャで486分間のシーケンスを含む、新たな人間とオブジェクトのインタラクションデータセットを収集する。
論文 参考訳(メタデータ) (2024-01-18T18:59:58Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - GRAB: A Dataset of Whole-Body Human Grasping of Objects [53.00728704389501]
人間の把握を理解するためのコンピュータの訓練には、複雑な3Dオブジェクトの形状、詳細な接触情報、ポーズと形状、時間の経過とともに3Dボディの動きを含む豊富なデータセットが必要である。
全身の3次元形状を含むGRABと呼ばれる新しいデータセットを収集し、形状と大きさの異なる51の日常的な物体と相互作用する10人の被験者のシーケンスを合成する。
これは、人間がオブジェクトをつかみ、操作する方法、全身がどのように関与し、どのように相互作用がタスクによって異なるかを理解するために、既存のデータセットをはるかに超えています。
論文 参考訳(メタデータ) (2020-08-25T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。