論文の概要: TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object
Understanding
- arxiv url: http://arxiv.org/abs/2401.08399v1
- Date: Tue, 16 Jan 2024 14:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 13:49:03.946069
- Title: TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object
Understanding
- Title(参考訳): TACO: 汎用的な双方向ツール-アクション-オブジェクト理解のベンチマーク
- Authors: Yun Liu, Haolin Yang, Xu Si, Ling Liu, Zipeng Li, Yuxiang Zhang, Yebin
Liu, Li Yi
- Abstract要約: TACOは、日々の人間活動のための多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲なデータセットである。
TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。
本研究は,構成動作認識,一般化可能なハンドオブジェクト動作予測,協調的グリップ合成という,汎用的な3つのハンドオブジェクトインタラクションタスクをベンチマークする。
- 参考スコア(独自算出の注目度): 46.11019343552726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans commonly work with multiple objects in daily life and can intuitively
transfer manipulation skills to novel objects by understanding object
functional regularities. However, existing technical approaches for analyzing
and synthesizing hand-object manipulation are mostly limited to handling a
single hand and object due to the lack of data support. To address this, we
construct TACO, an extensive bimanual hand-object-interaction dataset spanning
a large variety of tool-action-object compositions for daily human activities.
TACO contains 2.5K motion sequences paired with third-person and egocentric
views, precise hand-object 3D meshes, and action labels. To rapidly expand the
data scale, we present a fully-automatic data acquisition pipeline combining
multi-view sensing with an optical motion capture system. With the vast
research fields provided by TACO, we benchmark three generalizable
hand-object-interaction tasks: compositional action recognition, generalizable
hand-object motion forecasting, and cooperative grasp synthesis. Extensive
experiments reveal new insights, challenges, and opportunities for advancing
the studies of generalizable hand-object motion analysis and synthesis. Our
data and code are available at https://taco2024.github.io.
- Abstract(参考訳): 人間は日常的に複数の物体で作業し、オブジェクトの機能的規則を理解することによって、操作スキルを新しいオブジェクトに直感的に伝達することができる。
しかし、手オブジェクト操作の分析と合成のための既存の技術的アプローチは、データサポートの欠如により、主に片手とオブジェクトの処理に限られる。
そこで本研究では,多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲な双方向ハンド・オブジェクト・インタラクション・データセットであるTACOを構築した。
TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。
データスケールを迅速に拡張するため,マルチビューセンシングと光モーションキャプチャシステムを組み合わせた完全自動データ取得パイプラインを提案する。
TACOが提供する膨大な研究分野を用いて,構成的動作認識,汎用的手対象動作予測,協調的把握合成という3つの汎用的手対象対話タスクをベンチマークした。
広範囲にわたる実験は、一般化可能な手動解析と合成の研究を進めるための新たな洞察、挑戦、機会を明らかにする。
私たちのデータとコードはhttps://taco2024.github.ioで利用可能です。
関連論文リスト
- HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion [39.14950571922401]
OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。
操作タスクを整理する3つのレベルの抽象化が導入されている。
OakINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2024-03-28T13:47:19Z) - ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily
Living [4.221961702292134]
ADL4Dは、日々の生活活動(ADL)を行う異なる対象のセットで行動する、最大2人の被験者のデータセットである
我々のデータセットは75のシーケンスで構成されており、合計1.1MのRGB-Dフレーム、手とオブジェクトのポーズ、手ごとのきめ細かいアクションアノテーションで構成されています。
マルチビュー・マルチハンド3Dポーズ・アンノベーションのための自動システムを開発した。
論文 参考訳(メタデータ) (2024-02-27T18:51:52Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。