論文の概要: GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities
- arxiv url: http://arxiv.org/abs/2412.04244v1
- Date: Thu, 05 Dec 2024 15:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:38.386475
- Title: GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities
- Title(参考訳): GigaHands: 両手の活動に関する大量の注釈付きデータセット
- Authors: Rao Fu, Dingxi Zhang, Alex Jiang, Wanjia Fu, Austin Funk, Daniel Ritchie, Srinath Sridhar,
- Abstract要約: GigaHandsは56人の被験者と417のオブジェクトから34時間の両手の動きを捉えた巨大な注釈付きデータセットである。
マーカレスキャプチャのセットアップとデータ取得プロトコルにより,完全自動3Dハンドとオブジェクト推定が可能となる。
- 参考スコア(独自算出の注目度): 16.094825384244604
- License:
- Abstract: Understanding bimanual human hand activities is a critical problem in AI and robotics. We cannot build large models of bimanual activities because existing datasets lack the scale, coverage of diverse hand activities, and detailed annotations. We introduce GigaHands, a massive annotated dataset capturing 34 hours of bimanual hand activities from 56 subjects and 417 objects, totaling 14k motion clips derived from 183 million frames paired with 84k text annotations. Our markerless capture setup and data acquisition protocol enable fully automatic 3D hand and object estimation while minimizing the effort required for text annotation. The scale and diversity of GigaHands enable broad applications, including text-driven action synthesis, hand motion captioning, and dynamic radiance field reconstruction.
- Abstract(参考訳): 人間の手の動きを理解することは、AIやロボット工学において重要な問題である。
既存のデータセットにはスケール、多様な手作業のカバレッジ、詳細なアノテーションが欠けているため、バイマニュアルアクティビティの大規模なモデルを構築することはできません。
56件の被験者と417件のオブジェクトから34時間の両手の動きを収集し,84kのテキストアノテーションと組み合わせた1億8300万のフレームから1,400万のモーションクリップを抽出した。
マーカレスキャプチャのセットアップとデータ取得プロトコルにより、テキストアノテーションに必要な労力を最小限に抑えながら、3Dハンドとオブジェクトの完全な自動推定が可能となる。
GigaHandsのスケールと多様性は、テキスト駆動のアクション合成、手の動きのキャプション、動的放射野再構成など幅広い応用を可能にする。
関連論文リスト
- Motion-X++: A Large-Scale Multimodal 3D Whole-body Human Motion Dataset [35.47253826828815]
Motion-X++は大規模なマルチモーダル3D表現型人体モーションデータセットである。
Motion-X++は、巨大なシーンから120.5Kのモーションシーケンスをカバーする19.5Mの全身のポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2025-01-09T09:37:27Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
高品質な手動アノテーションを備えたUniversal Scene Description (USD)フォーマットで、専門家がキュレートしたデータセットを導入する。
広範かつ高品質なアノテーションにより、このデータは総合的な3Dシーン理解モデルの基礎を提供する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking [7.443420525809604]
我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューのRGB/モノクロ画像ストリームを833分以上提供し、19人の被験者が33の多様な剛体オブジェクトと対話していることを示している。
単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T21:38:17Z) - TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding [44.206222326616526]
TACOは、日々の人間活動のための多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲なデータセットである。
TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。
本研究は,構成動作認識,一般化可能なハンドオブジェクト動作予測,協調的グリップ合成という,汎用的な3つのハンドオブジェクトインタラクションタスクをベンチマークする。
論文 参考訳(メタデータ) (2024-01-16T14:41:42Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset [40.54625833855793]
Motion-Xは、大規模な3D表現型全身運動データセットである。
15.6Mの正確な3Dボディのポーズアノテーション(SMPL-X)で、巨大なシーンから81.1Kのモーションシーケンスをカバーしている。
Motion-Xは15.6Mフレームレベルの全身ポーズ記述と81.1Kシーケンスレベルのセマンティックラベルを提供する。
論文 参考訳(メタデータ) (2023-07-03T07:57:29Z) - AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand
Pose Estimation [26.261767086366866]
正確な3Dハンドポーズアノテーションを備えた大規模ベンチマークデータセットである AssemblyHands を提示する。
AssemblyHandsは490Kのエゴセントリックなイメージを含む3.0Mの注釈付きイメージを提供する。
我々の研究は、高品質の手のポーズが、行動を認識する能力を直接的に改善することを示しています。
論文 参考訳(メタデータ) (2023-04-24T17:52:57Z) - EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations [83.26326325568208]
我々は、新しいピクセルアノテーションのデータセットであるVISORと、エゴセントリックなビデオで手やアクティブなオブジェクトをセグメンテーションするためのベンチマークスイートを紹介する。
具体的には、オブジェクトが変換的相互作用を行う場合、ピクセルレベルのアノテーションの短期的および長期的整合性を保証する必要がある。
VISORは、拡張性と品質のために、部分でAI駆動のアノテーションパイプラインを導入している。
論文 参考訳(メタデータ) (2022-09-26T23:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。