論文の概要: OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion
- arxiv url: http://arxiv.org/abs/2403.19417v1
- Date: Thu, 28 Mar 2024 13:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:14:04.128072
- Title: OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion
- Title(参考訳): OAKINK2: 複雑なタスク完了における双方向ハンドオブジェクト操作のデータセット
- Authors: Xinyu Zhan, Lixin Yang, Yifei Zhao, Kangrui Mao, Hanlin Xu, Zenan Lin, Kailin Li, Cewu Lu,
- Abstract要約: OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。
操作タスクを整理する3つのレベルの抽象化が導入されている。
OakINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。
- 参考スコア(独自算出の注目度): 39.14950571922401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present OAKINK2, a dataset of bimanual object manipulation tasks for complex daily activities. In pursuit of constructing the complex tasks into a structured representation, OAKINK2 introduces three level of abstraction to organize the manipulation tasks: Affordance, Primitive Task, and Complex Task. OAKINK2 features on an object-centric perspective for decoding the complex tasks, treating them as a sequence of object affordance fulfillment. The first level, Affordance, outlines the functionalities that objects in the scene can afford, the second level, Primitive Task, describes the minimal interaction units that humans interact with the object to achieve its affordance, and the third level, Complex Task, illustrates how Primitive Tasks are composed and interdependent. OAKINK2 dataset provides multi-view image streams and precise pose annotations for the human body, hands and various interacting objects. This extensive collection supports applications such as interaction reconstruction and motion synthesis. Based on the 3-level abstraction of OAKINK2, we explore a task-oriented framework for Complex Task Completion (CTC). CTC aims to generate a sequence of bimanual manipulation to achieve task objectives. Within the CTC framework, we employ Large Language Models (LLMs) to decompose the complex task objectives into sequences of Primitive Tasks and have developed a Motion Fulfillment Model that generates bimanual hand motion for each Primitive Task. OAKINK2 datasets and models are available at https://oakink.net/v2.
- Abstract(参考訳): OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。
OAKINK2は、複雑なタスクを構造化された表現に構築するために、操作タスクを整理する3つのレベルの抽象化を導入している。
OAKINK2は複雑なタスクをデコードするためにオブジェクト中心の視点で機能し、それらをオブジェクトのアベイランスフルフィルメントのシーケンスとして扱う。
第1のレベルであるAffordanceでは、シーン内のオブジェクトが手に入る機能の概要を、第2のレベルであるPrimitive Taskでは、人間がその余裕を達成するためにオブジェクトと対話する最小のインタラクションユニットを、第3のレベルであるComplex Taskでは、プリミティブタスクがどのように構成され、相互依存しているかを説明している。
OAKINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。
この広範なコレクションは、相互作用再構成やモーション合成といった応用をサポートしている。
OAKINK2の3段階の抽象化に基づいて,複雑なタスク補完(CTC)のためのタスク指向フレームワークについて検討する。
CTCは、タスク目的を達成するために、双方向操作のシーケンスを生成することを目的としている。
CTC フレームワーク内では,複雑なタスク対象をプリミティブタスクのシーケンスに分解するために,Large Language Models (LLMs) を使用し,プリミティブタスク毎にバイマニュアルハンドモーションを生成するモーションフルフィルメントモデルを開発した。
OAKINK2のデータセットとモデルはhttps://oakink.net/v2.comで公開されている。
関連論文リスト
- Leverage Task Context for Object Affordance Ranking [57.59106517732223]
25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築しました。
その結果,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。
論文 参考訳(メタデータ) (2024-11-25T04:22:33Z) - DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding [44.206222326616526]
TACOは、日々の人間活動のための多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲なデータセットである。
TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。
本研究は,構成動作認識,一般化可能なハンドオブジェクト動作予測,協調的グリップ合成という,汎用的な3つのハンドオブジェクトインタラクションタスクをベンチマークする。
論文 参考訳(メタデータ) (2024-01-16T14:41:42Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。