論文の概要: GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2410.03645v1
- Date: Fri, 04 Oct 2024 17:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:12:17.257843
- Title: GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
- Title(参考訳): GenSim2:マルチモーダル・推論LDMによるロボットデータ生成のスケーリング
- Authors: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang,
- Abstract要約: GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。
パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。
我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
- 参考スコア(独自算出の注目度): 38.281562732050084
- License:
- Abstract: Robotic simulation today remains challenging to scale up due to the human efforts required to create diverse simulation tasks and scenes. Simulation-trained policies also face scalability issues as many sim-to-real methods focus on a single task. To address these challenges, this work proposes GenSim2, a scalable framework that leverages coding LLMs with multi-modal and reasoning capabilities for complex and realistic simulation task creation, including long-horizon tasks with articulated objects. To automatically generate demonstration data for these tasks at scale, we propose planning and RL solvers that generalize within object categories. The pipeline can generate data for up to 100 articulated tasks with 200 objects and reduce the required human efforts. To utilize such data, we propose an effective multi-task language-conditioned policy architecture, dubbed proprioceptive point-cloud transformer (PPT), that learns from the generated demonstrations and exhibits strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the policy architecture, we show a promising usage of GenSim2 that the generated data can be used for zero-shot transfer or co-train with real-world collected data, which enhances the policy performance by 20% compared with training exclusively on limited real data.
- Abstract(参考訳): 今やロボットシミュレーションは、多様なシミュレーションタスクやシーンを作るのに必要な人的努力のために、スケールアップが難しいままだ。
シミュレーション訓練されたポリシーは、多くのsim-to-realメソッドが単一のタスクに焦点を当てているため、スケーラビリティの問題にも直面する。
これらの課題に対処するため、この研究は、多モーダルおよび推論機能を備えたLLMのコーディングを活用するスケーラブルなフレームワークであるGenSim2を提案している。
そこで本研究では,これらのタスクを大規模に表現するための実演データを自動的に生成するために,オブジェクトカテゴリ内で一般化する計画とRLソルバを提案する。
パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。
このようなデータを活用するために,プロプリセプティブ・ポイントクラウド・トランスフォーマー (PPT) と呼ばれる,マルチタスク言語による効果的なポリシーアーキテクチャを提案し,その実演から学習し,強力なsim-to-realゼロショット転送を示す。
提案したパイプラインとポリシアーキテクチャを組み合わせることで,生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる,GenSim2の有望な利用方法を示す。
関連論文リスト
- ASID: Active Exploration for System Identification in Robotic Manipulation [32.27299045059514]
本稿では,少数の実世界のデータを活用して,シミュレーションモデルを自律的に洗練し,正確な制御戦略を立案する学習システムを提案する。
本研究は, ロボット操作作業における調音, 質量, その他の物理パラメータの同定における, このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T16:35:38Z) - PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation
Learning [33.88636835443266]
キッチン環境におけるマルチタスク・マルチシーンロボット操作のレンズ下でのロボット学習のスケールアップのためのフレームワークを提案する。
CACTIという名前のフレームワークは,データ収集,データ拡張,視覚表現学習,模倣ポリシートレーニングの4つの段階を別々に扱う。
CACTIフレームワークでは、拡張段階の一部として、画像生成に最先端モデルを適用する利点を強調している。
論文 参考訳(メタデータ) (2022-12-12T05:30:08Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。