論文の概要: TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2503.11423v1
- Date: Fri, 14 Mar 2025 14:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.351711
- Title: TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation
- Title(参考訳): TASTE-Rob:汎用ロボットマニピュレーションのためのタスク指向ハンドオブジェクトインタラクションのビデオ生成の改善
- Authors: Hongxiang Zhao, Xingchen Liu, Mutian Xu, Yiming Hao, Weikai Chen, Xiaoguang Han,
- Abstract要約: TASTE-Robは、エゴ中心のハンドオブジェクトインタラクションビデオ100,856のデータセットである。
それぞれのビデオは、言語指示と慎重に一致し、一貫したカメラ視点から記録される。
リアリズムを高めるために,我々は3段階のポーズ・リファインメント・パイプラインを導入する。
- 参考スコア(独自算出の注目度): 18.083105886634115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address key limitations in existing datasets and models for task-oriented hand-object interaction video generation, a critical approach of generating video demonstrations for robotic imitation learning. Current datasets, such as Ego4D, often suffer from inconsistent view perspectives and misaligned interactions, leading to reduced video quality and limiting their applicability for precise imitation learning tasks. Towards this end, we introduce TASTE-Rob -- a pioneering large-scale dataset of 100,856 ego-centric hand-object interaction videos. Each video is meticulously aligned with language instructions and recorded from a consistent camera viewpoint to ensure interaction clarity. By fine-tuning a Video Diffusion Model (VDM) on TASTE-Rob, we achieve realistic object interactions, though we observed occasional inconsistencies in hand grasping postures. To enhance realism, we introduce a three-stage pose-refinement pipeline that improves hand posture accuracy in generated videos. Our curated dataset, coupled with the specialized pose-refinement framework, provides notable performance gains in generating high-quality, task-oriented hand-object interaction videos, resulting in achieving superior generalizable robotic manipulation. The TASTE-Rob dataset will be made publicly available upon publication to foster further advancements in the field.
- Abstract(参考訳): 我々は、ロボット模倣学習のためのビデオデモを生成するための重要なアプローチである、タスク指向ハンドオブジェクトインタラクションビデオ生成のための既存のデータセットとモデルにおける重要な制限に対処する。
Ego4Dのような現在のデータセットは、しばしば一貫性のない視点と不一致な相互作用に悩まされ、ビデオの品質が低下し、正確な模倣学習タスクの適用性が制限される。
この目的に向けて、私たちはTASTE-Robを紹介します。これは、100,856のエゴ中心の手オブジェクトインタラクションビデオからなる、大規模データセットのパイオニアです。
それぞれのビデオは、言語命令と慎重に一致し、一貫したカメラ視点から記録され、対話の明確さが保証される。
TASTE-Rob 上でビデオ拡散モデル (VDM) を微調整することにより現実的な物体相互作用を実現する。
リアリズムを高めるために,生成したビデオの姿勢精度を向上させる3段階のポーズ・リファインメント・パイプラインを導入する。
我々のキュレートされたデータセットは、特殊なポーズ・リファインメント・フレームワークと組み合わせて、高品質でタスク指向のハンドオブジェクトインタラクション・ビデオを生成することで、優れた汎用ロボット操作を実現する。
TASTE-Robデータセットは公開時に公開され、この分野のさらなる進歩が促進される。
関連論文リスト
- RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。
シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-04-02T19:02:08Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction [5.989044517795631]
本稿では,実世界の同期型マルチモーダルデータ問題に対処するために,カイウーマルチモーダルデータセットを提案する。
このデータセットはまず、人間、環境、ロボットのデータ収集フレームワークを20の被験者と30のインタラクションオブジェクトと統合する。
絶対タイムスタンプに基づく細粒度マルチレベルアノテーションとセマンティックセグメンテーションラベリングを行う。
論文 参考訳(メタデータ) (2025-03-07T08:28:24Z) - Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping [37.40475678197331]
ManiVideoは、一貫した時間的コヒーレントな双方向手動操作ビデオを生成する方法である。
MLO構造をUNetに2つの形式で埋め込むことで、デキスタラスハンドオブジェクト操作の3次元一貫性を高めることができる。
複数のデータセットを効果的に統合し、人中心手オブジェクト操作ビデオ生成などの下流タスクをサポートする革新的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-18T00:37:55Z) - Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model [35.184607650708784]
Articulate-Anythingは、テキスト、画像、ビデオを含む多くの入力モダリティから、多種多様な複雑なオブジェクトの明瞭化を自動化する。
本システムでは,メッシュ検索機構を通じて既存の3Dデータセットを,反復的に提案,評価,洗練を行うアクタ・クリティカル・システムとともに活用する。
論文 参考訳(メタデータ) (2024-10-03T19:42:16Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。