論文の概要: TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding
- arxiv url: http://arxiv.org/abs/2401.08399v2
- Date: Mon, 25 Mar 2024 16:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 22:03:36.193694
- Title: TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding
- Title(参考訳): TACO: 汎用的な双方向ツール-アクティベーション-オブジェクト理解のベンチマーク
- Authors: Yun Liu, Haolin Yang, Xu Si, Ling Liu, Zipeng Li, Yuxiang Zhang, Yebin Liu, Li Yi,
- Abstract要約: TACOは、日々の人間活動のための多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲なデータセットである。
TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。
本研究は,構成動作認識,一般化可能なハンドオブジェクト動作予測,協調的グリップ合成という,汎用的な3つのハンドオブジェクトインタラクションタスクをベンチマークする。
- 参考スコア(独自算出の注目度): 44.206222326616526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans commonly work with multiple objects in daily life and can intuitively transfer manipulation skills to novel objects by understanding object functional regularities. However, existing technical approaches for analyzing and synthesizing hand-object manipulation are mostly limited to handling a single hand and object due to the lack of data support. To address this, we construct TACO, an extensive bimanual hand-object-interaction dataset spanning a large variety of tool-action-object compositions for daily human activities. TACO contains 2.5K motion sequences paired with third-person and egocentric views, precise hand-object 3D meshes, and action labels. To rapidly expand the data scale, we present a fully automatic data acquisition pipeline combining multi-view sensing with an optical motion capture system. With the vast research fields provided by TACO, we benchmark three generalizable hand-object-interaction tasks: compositional action recognition, generalizable hand-object motion forecasting, and cooperative grasp synthesis. Extensive experiments reveal new insights, challenges, and opportunities for advancing the studies of generalizable hand-object motion analysis and synthesis. Our data and code are available at https://taco2024.github.io.
- Abstract(参考訳): 人間は通常、日常生活において複数の物体で作業し、オブジェクトの機能的規則を理解することによって、操作スキルを新しい物体に直感的に伝達することができる。
しかし、手オブジェクト操作の分析と合成のための既存の技術的アプローチは、データサポートの欠如により、主に片手とオブジェクトの処理に限られる。
そこで本研究では,多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲な双方向ハンド・オブジェクト・インタラクション・データセットであるTACOを構築した。
TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。
光モーションキャプチャシステムとマルチビューセンシングを組み合わせた完全自動データ取得パイプラインを提案する。
TACOが提供する膨大な研究分野を用いて,構成的動作認識,汎用的手対象動作予測,協調的把握合成という3つの汎用的手対象対話タスクをベンチマークした。
広範囲にわたる実験により、一般化可能な手動解析と合成の研究を進めるための新たな洞察、挑戦、機会が明らかにされた。
私たちのデータとコードはhttps://taco2024.github.io.comで公開されています。
関連論文リスト
- Arti-PG: A Toolbox for Procedurally Synthesizing Large-Scale and Diverse Articulated Objects with Rich Annotations [41.54457853741178]
本稿ではArticulated Object Procedural Generation Toolbox(Articulated Object Procedural Generation Toolbox)を提案する。
Arti-PGは26種類の音節オブジェクトの手続き生成をサポートし、視覚と操作タスクの両方でアノテーションを提供する。
Arti-PGツールボックスをコミュニティで使用するために公開します。
論文 参考訳(メタデータ) (2024-12-19T15:48:51Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
高品質な手動アノテーションを備えたUniversal Scene Description (USD)フォーマットで、専門家がキュレートしたデータセットを導入する。
広範かつ高品質なアノテーションにより、このデータは総合的な3Dシーン理解モデルの基礎を提供する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion [39.14950571922401]
OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。
操作タスクを整理する3つのレベルの抽象化が導入されている。
OakINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2024-03-28T13:47:19Z) - ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。