論文の概要: HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction
- arxiv url: http://arxiv.org/abs/2406.06843v1
- Date: Mon, 10 Jun 2024 23:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 19:56:14.412861
- Title: HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction
- Title(参考訳): HO-Cap:手-手-手のインタラクションの3次元再構成と姿勢追跡のためのキャプチャシステムとデータセット
- Authors: Jikai Wang, Qifan Zhang, Yu-Wei Chao, Bowen Wen, Xiaohu Guo, Yu Xiang,
- Abstract要約: ビデオ中の手や物体の3D再構成とポーズ追跡に使用できるHO-Capという新しいデータセットを紹介した。
そこで本研究では,手や物体の形状やポーズのアノテーションを半自動で取得する手法を提案する。
我々のデータキャプチャのセットアップとアノテーションフレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、それらのポーズをビデオで追跡するために使用することができる。
- 参考スコア(独自算出の注目度): 16.363878619678367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a data capture system and a new dataset named HO-Cap that can be used to study 3D reconstruction and pose tracking of hands and objects in videos. The capture system uses multiple RGB-D cameras and a HoloLens headset for data collection, avoiding the use of expensive 3D scanners or mocap systems. We propose a semi-automatic method to obtain annotations of shape and pose of hands and objects in the collected videos, which significantly reduces the required annotation time compared to manual labeling. With this system, we captured a video dataset of humans using objects to perform different tasks, as well as simple pick-and-place and handover of an object from one hand to the other, which can be used as human demonstrations for embodied AI and robot manipulation research. Our data capture setup and annotation framework can be used by the community to reconstruct 3D shapes of objects and human hands and track their poses in videos.
- Abstract(参考訳): データキャプチャシステムとHO-Capと呼ばれる新しいデータセットを導入し、ビデオ内の手や物体の3D再構成やポーズの追跡に使用することができる。
キャプチャシステムは複数のRGB-DカメラとHoloLensヘッドセットをデータ収集に使用し、高価な3Dスキャナーやモキャップシステムの使用を避ける。
そこで本研究では,手や物体の形状やポーズのアノテーションを得るための半自動的手法を提案し,手動ラベリングと比較して,必要なアノテーション時間を著しく短縮する。
このシステムでは、物体を使って異なるタスクをこなすためのビデオデータセットと、物体を片手で簡単にピックアップ・アンド・プレース・アンド・ハンドオーバし、AIとロボット操作の研究のための人間のデモとして使用できる。
我々のデータキャプチャのセットアップとアノテーションフレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、それらのポーズをビデオで追跡するために使用することができる。
関連論文リスト
- Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking [7.443420525809604]
我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューのRGB/モノクロ画像ストリームを833分以上提供し、19人の被験者が33の多様な剛体オブジェクトと対話していることを示している。
単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T21:38:17Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - Multi-View Video-Based 3D Hand Pose Estimation [11.65577683784217]
提案するマルチビュービデオベース3Dハンドデータセットは,手動のマルチビュービデオと地動3Dポーズラベルから構成される。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
次に、手の視覚的埋め込みを得るために、画像エンコーダからなるニューラルネットワークであるMuViHandNetを実装した。
論文 参考訳(メタデータ) (2021-09-24T05:20:41Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - GRAB: A Dataset of Whole-Body Human Grasping of Objects [53.00728704389501]
人間の把握を理解するためのコンピュータの訓練には、複雑な3Dオブジェクトの形状、詳細な接触情報、ポーズと形状、時間の経過とともに3Dボディの動きを含む豊富なデータセットが必要である。
全身の3次元形状を含むGRABと呼ばれる新しいデータセットを収集し、形状と大きさの異なる51の日常的な物体と相互作用する10人の被験者のシーケンスを合成する。
これは、人間がオブジェクトをつかみ、操作する方法、全身がどのように関与し、どのように相互作用がタスクによって異なるかを理解するために、既存のデータセットをはるかに超えています。
論文 参考訳(メタデータ) (2020-08-25T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。