論文の概要: GenSim: Generating Robotic Simulation Tasks via Large Language Models
- arxiv url: http://arxiv.org/abs/2310.01361v1
- Date: Mon, 2 Oct 2023 17:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:42:02.433846
- Title: GenSim: Generating Robotic Simulation Tasks via Large Language Models
- Title(参考訳): GenSim:大規模言語モデルによるロボットシミュレーションタスクの生成
- Authors: Lirui Wang, Yiyang Ling, Zhecheng Yuan, Mohit Shridhar, Chen Bao,
Yuzhe Qin, Bailin Wang, Huazhe Xu, Xiaolong Wang
- Abstract要約: GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
- 参考スコア(独自算出の注目度): 34.79613485106202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting large amounts of real-world interaction data to train general
robotic policies is often prohibitively expensive, thus motivating the use of
simulation data. However, existing methods for data generation have generally
focused on scene-level diversity (e.g., object instances and poses) rather than
task-level diversity, due to the human effort required to come up with and
verify novel tasks. This has made it challenging for policies trained on
simulation data to demonstrate significant task-level generalization. In this
paper, we propose to automatically generate rich simulation environments and
expert demonstrations by exploiting a large language models' (LLM) grounding
and coding ability. Our approach, dubbed GenSim, has two modes: goal-directed
generation, wherein a target task is given to the LLM and the LLM proposes a
task curriculum to solve the target task, and exploratory generation, wherein
the LLM bootstraps from previous tasks and iteratively proposes novel tasks
that would be helpful in solving more complex tasks. We use GPT4 to expand the
existing benchmark by ten times to over 100 tasks, on which we conduct
supervised finetuning and evaluate several LLMs including finetuned GPTs and
Code Llama on code generation for robotic simulation tasks. Furthermore, we
observe that LLMs-generated simulation programs can enhance task-level
generalization significantly when used for multitask policy training. We
further find that with minimal sim-to-real adaptation, the multitask policies
pretrained on GPT4-generated simulation tasks exhibit stronger transfer to
unseen long-horizon tasks in the real world and outperform baselines by 25%.
See the project website (https://liruiw.github.io/gensim) for code, demos, and
videos.
- Abstract(参考訳): 一般的なロボットポリシーを訓練するために大量の現実世界のインタラクションデータを収集することは、しばしば違法に高価であり、シミュレーションデータの使用を動機付けている。
しかし、既存のデータ生成手法は、新しいタスクを考え検証するのに必要な人的労力のため、一般的にタスクレベルの多様性ではなく、シーンレベルの多様性(例えば、オブジェクトインスタンスとポーズ)に焦点を当ててきた。
これにより、シミュレーションデータに基づいて訓練されたポリシーが重要なタスクレベルの一般化を示すことが困難になった。
本稿では,大規模言語モデル(llm)のグラウンドとコーディング能力を活用し,リッチなシミュレーション環境とエキスパートデモンストレーションを自動的に生成する手法を提案する。
GenSimと呼ばれる我々の手法には、目標タスクをLLMに付与するゴール指向生成と、目標タスクを解くためのタスクカリキュラムの提案と、以前のタスクからLLMブートストラップを抽出し、より複雑なタスクを解くのに役立つ新しいタスクを反復的に提案する探索生成という2つのモードがある。
我々は、GPT4を用いて既存のベンチマークを10回以上100タスクに拡張し、ロボットシミュレーションタスクのコード生成において、微調整GPTやCode Llamaを含む複数のLCMを教師付き微調整し、評価する。
さらに、マルチタスクポリシートレーニングに使用する場合、LCMの生成したシミュレーションプログラムはタスクレベルの一般化を大幅に向上させることができる。
さらに,最小のsim-to-real適応により,gpt4生成シミュレーションタスクに事前学習したマルチタスクポリシは,実世界で認識できない長時間ホリゾンタスクへの転送が強くなり,ベースラインを25%上回ることがわかった。
コード、デモ、ビデオのプロジェクトwebサイト(https://liruiw.github.io/gensim)を参照。
関連論文リスト
- Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。
マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。
本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.281562732050084]
GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。
パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。
我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
論文 参考訳(メタデータ) (2024-10-04T17:51:33Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。