論文の概要: HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning
- arxiv url: http://arxiv.org/abs/2507.00833v1
- Date: Tue, 01 Jul 2025 15:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.68393
- Title: HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning
- Title(参考訳): HumanoidGen: LLM推論による2次元デキスタラスマニピュレーションのためのデータ生成
- Authors: Zhi Jing, Siyuan Yang, Jicong Ao, Ting Xiao, Yugang Jiang, Chenjia Bai,
- Abstract要約: 本稿では,自動タスク生成およびデモコレクションフレームワークであるHumanoidGenを提案する。
具体的には,原子の操作に基づいて,資産と器用な手の両方に空間アノテーションを提供する。
実験では,収集したデータの品質を評価するために,拡張シナリオを用いた新しいベンチマークを作成する。
- 参考スコア(独自算出の注目度): 46.57163859424286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For robotic manipulation, existing robotics datasets and simulation benchmarks predominantly cater to robot-arm platforms. However, for humanoid robots equipped with dual arms and dexterous hands, simulation tasks and high-quality demonstrations are notably lacking. Bimanual dexterous manipulation is inherently more complex, as it requires coordinated arm movements and hand operations, making autonomous data collection challenging. This paper presents HumanoidGen, an automated task creation and demonstration collection framework that leverages atomic dexterous operations and LLM reasoning to generate relational constraints. Specifically, we provide spatial annotations for both assets and dexterous hands based on the atomic operations, and perform an LLM planner to generate a chain of actionable spatial constraints for arm movements based on object affordances and scenes. To further improve planning ability, we employ a variant of Monte Carlo tree search to enhance LLM reasoning for long-horizon tasks and insufficient annotation. In experiments, we create a novel benchmark with augmented scenarios to evaluate the quality of the collected data. The results show that the performance of the 2D and 3D diffusion policies can scale with the generated dataset. Project page is https://openhumanoidgen.github.io.
- Abstract(参考訳): ロボット操作では、既存のロボットデータセットとシミュレーションベンチマークが、主にロボットアームプラットフォームに適合する。
しかし、両腕と器用な手を備えたヒューマノイドロボットでは、シミュレーションタスクと高品質なデモンストレーションが特に欠落している。
腕の動きや手の動きの調整が必要であり、自律的なデータ収集が困難になるため、両面的なデキスタラスな操作は本質的に複雑である。
本稿では,アトミックデクスタラス演算とLLM推論を利用して,リレーショナル制約を生成する,自動タスク生成およびデモコレクションフレームワークHumanoidGenを提案する。
具体的には、原子操作に基づく資産と器用な手の両方に空間アノテーションを提供し、オブジェクトの余裕とシーンに基づいて、腕の動きに対して実行可能な空間制約の連鎖を生成するLLMプランナーを実行する。
さらに計画能力を向上するため,長期タスクのLLM推論とアノテーションの不十分さを改善するため,モンテカルロ木探索の変種を用いる。
実験では,収集したデータの品質を評価するために,拡張シナリオを用いた新しいベンチマークを作成する。
その結果, 2D と 3D の拡散ポリシの性能は, 生成したデータセットで拡張可能であることがわかった。
プロジェクトページはhttps://openhumanoidgen.github.io。
関連論文リスト
- RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。
3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。
我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文 参考訳(メタデータ) (2025-06-28T05:03:31Z) - DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning [42.88605563822155]
本稿では,人間の手による人型ロボットの人体実験からトラジェクトリを合成する大規模自動データ生成システムを提案する。
私たちは、たった60のソースの人間デモから、これらのタスク全体で21Kのデモを生成します。
また、実世界のヒューマノイド缶ソートタスクに、実世界のシミュレート・トゥ・リアルパイプラインを配置する。
論文 参考訳(メタデータ) (2024-10-31T17:48:45Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - MimicGen: A Data Generation System for Scalable Robot Learning using
Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:17:31Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。