論文の概要: GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2410.03645v1
- Date: Fri, 4 Oct 2024 17:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:58:02.723938
- Title: GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
- Title(参考訳): GenSim2:マルチモーダル・推論LDMによるロボットデータ生成のスケーリング
- Authors: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang,
- Abstract要約: GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。
パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。
我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
- 参考スコア(独自算出の注目度): 38.281562732050084
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Robotic simulation today remains challenging to scale up due to the human efforts required to create diverse simulation tasks and scenes. Simulation-trained policies also face scalability issues as many sim-to-real methods focus on a single task. To address these challenges, this work proposes GenSim2, a scalable framework that leverages coding LLMs with multi-modal and reasoning capabilities for complex and realistic simulation task creation, including long-horizon tasks with articulated objects. To automatically generate demonstration data for these tasks at scale, we propose planning and RL solvers that generalize within object categories. The pipeline can generate data for up to 100 articulated tasks with 200 objects and reduce the required human efforts. To utilize such data, we propose an effective multi-task language-conditioned policy architecture, dubbed proprioceptive point-cloud transformer (PPT), that learns from the generated demonstrations and exhibits strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the policy architecture, we show a promising usage of GenSim2 that the generated data can be used for zero-shot transfer or co-train with real-world collected data, which enhances the policy performance by 20% compared with training exclusively on limited real data.
- Abstract(参考訳): 今やロボットシミュレーションは、多様なシミュレーションタスクやシーンを作るのに必要な人的努力のために、スケールアップが難しいままだ。
シミュレーション訓練されたポリシーは、多くのsim-to-realメソッドが単一のタスクに焦点を当てているため、スケーラビリティの問題にも直面する。
これらの課題に対処するため、この研究は、多モーダルおよび推論機能を備えたLLMのコーディングを活用するスケーラブルなフレームワークであるGenSim2を提案している。
そこで本研究では,これらのタスクを大規模に表現するための実演データを自動的に生成するために,オブジェクトカテゴリ内で一般化する計画とRLソルバを提案する。
パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。
このようなデータを活用するために,プロプリセプティブ・ポイントクラウド・トランスフォーマー (PPT) と呼ばれる,マルチタスク言語による効果的なポリシーアーキテクチャを提案し,その実演から学習し,強力なsim-to-realゼロショット転送を示す。
提案したパイプラインとポリシアーキテクチャを組み合わせることで,生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる,GenSim2の有望な利用方法を示す。
関連論文リスト
- GRS: Generating Robotic Simulation Tasks from Real-World Images [18.64560477109255]
GRS(Generating Robotic Simulation task)は、ロボット工学、コンピュータビジョン、AR/VRにおけるリアル・トゥ・シモンの課題に対処する新しいシステムである。
我々は、最先端のビジョン言語モデル(VLM)を使用して、包括的なリアルタイムパイプラインを実現する。
1)オブジェクトセグメンテーションのためのSAM2を用いたシーン理解,2)識別されたオブジェクトとシミュレーション可能なアセットとのマッチング,3)コンテキストに適したロボットタスクを生成する。
論文 参考訳(メタデータ) (2024-10-20T23:33:06Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。
マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。
本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。