Fugu-MT 論文翻訳(概要): GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

論文の概要: GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

arxiv url: http://arxiv.org/abs/2410.03645v1
Date: Fri, 4 Oct 2024 17:51:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:58:02.723938
Title: GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
Title（参考訳）: GenSim2:マルチモーダル・推論LDMによるロボットデータ生成のスケーリング
Authors: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang,
Abstract要約: GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
参考スコア（独自算出の注目度）: 38.281562732050084
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Robotic simulation today remains challenging to scale up due to the human efforts required to create diverse simulation tasks and scenes. Simulation-trained policies also face scalability issues as many sim-to-real methods focus on a single task. To address these challenges, this work proposes GenSim2, a scalable framework that leverages coding LLMs with multi-modal and reasoning capabilities for complex and realistic simulation task creation, including long-horizon tasks with articulated objects. To automatically generate demonstration data for these tasks at scale, we propose planning and RL solvers that generalize within object categories. The pipeline can generate data for up to 100 articulated tasks with 200 objects and reduce the required human efforts. To utilize such data, we propose an effective multi-task language-conditioned policy architecture, dubbed proprioceptive point-cloud transformer (PPT), that learns from the generated demonstrations and exhibits strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the policy architecture, we show a promising usage of GenSim2 that the generated data can be used for zero-shot transfer or co-train with real-world collected data, which enhances the policy performance by 20% compared with training exclusively on limited real data.
Abstract（参考訳）: 今やロボットシミュレーションは、多様なシミュレーションタスクやシーンを作るのに必要な人的努力のために、スケールアップが難しいままだ。シミュレーション訓練されたポリシーは、多くのsim-to-realメソッドが単一のタスクに焦点を当てているため、スケーラビリティの問題にも直面する。これらの課題に対処するため、この研究は、多モーダルおよび推論機能を備えたLLMのコーディングを活用するスケーラブルなフレームワークであるGenSim2を提案している。そこで本研究では,これらのタスクを大規模に表現するための実演データを自動的に生成するために,オブジェクトカテゴリ内で一般化する計画とRLソルバを提案する。パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。このようなデータを活用するために,プロプリセプティブ・ポイントクラウド・トランスフォーマー (PPT) と呼ばれる,マルチタスク言語による効果的なポリシーアーキテクチャを提案し,その実演から学習し,強力なsim-to-realゼロショット転送を示す。提案したパイプラインとポリシアーキテクチャを組み合わせることで,生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる,GenSim2の有望な利用方法を示す。

関連論文リスト

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [51.86515213749527]
本稿では,多様な実データの自動生成を可能にするスケーラブルなシミュレーションフレームワークであるRoboTwin 2.0を紹介する。 sim-to-real転送を改善するため、RoboTwin 2.0は5つの軸に沿って構造化されたドメインランダム化を組み込んでいる。このフレームワークは、5つのロボットエボディメントにまたがる50のデュアルアームタスクにまたがってインスタンス化されます。
論文参考訳（メタデータ） (2025-06-22T16:26:53Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation [40.96453435496208]
本稿では,視覚に基づくロボット操作課題を解決するためにシミュレーションデータを利用する手法を提案する。ロボットアームとヒューマノイドの2つの領域を用いて,シミュレーションデータにより実世界のタスク性能を平均38%向上させることができることを示した。
論文参考訳（メタデータ） (2025-03-31T17:39:38Z)
Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos [61.925837909969815]
我々は,インターネット上のRGBビデオを利用して日常の人間行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介した。本手法は投球のような複雑で困難なタスクを含む,そのようなタスクに対するRLポリシーのトレーニングに成功している。生成したシミュレーションデータは,一般的なポリシをトレーニングするためにスケールアップ可能であり,Real2Sim2Real方式で実ロボットに転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-14T03:22:03Z)
Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation [16.244250979166214]
Generalizable Planning-Guided Diffusion Policy Learning (GLIDE)は、コンタクトリッチな双方向操作タスクを解決するためのアプローチである。本稿では,特徴抽出,タスク表現,行動予測,データ拡張における重要な設計オプションのセットを提案する。本手法は, 多様な地形, 寸法, 物理的特性の物体を効果的に操作することができる。
論文参考訳（メタデータ） (2024-12-03T18:51:39Z)
GRS: Generating Robotic Simulation Tasks from Real-World Images [18.64560477109255]
GRS(Generating Robotic Simulation task)は、ロボット工学、コンピュータビジョン、AR/VRにおけるリアル・トゥ・シモンの課題に対処する新しいシステムである。我々は、最先端のビジョン言語モデル(VLM)を使用して、包括的なリアルタイムパイプラインを実現する。 1)オブジェクトセグメンテーションのためのSAM2を用いたシーン理解,2)識別されたオブジェクトとシミュレーション可能なアセットとのマッチング,3)コンテキストに適したロボットタスクを生成する。
論文参考訳（メタデータ） (2024-10-20T23:33:06Z)
Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文参考訳（メタデータ） (2024-10-18T08:01:39Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文参考訳（メタデータ） (2023-10-02T17:23:48Z)
Reactive Long Horizon Task Execution via Visual Skill and Precondition Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文参考訳（メタデータ） (2020-11-17T15:24:01Z)
RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文参考訳（メタデータ） (2020-06-16T08:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。