Fugu-MT 論文翻訳(概要): RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation

論文の概要: RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation

arxiv url: http://arxiv.org/abs/2402.14623v1
Date: Thu, 22 Feb 2024 15:12:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 14:42:37.938957
Title: RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation
Title（参考訳）: RoboScript: リアルタイムおよびシミュレーションによるフリーフォーム操作タスクのためのコード生成
Authors: Junting Chen, Yao Mu, Qiaojun Yu, Tianming Wei, Silang Wu, Zhecheng Yuan, Zhixuan Liang, Chao Yang, Kaipeng Zhang, Wenqi Shao, Yu Qiao, Huazhe Xu, Mingyu Ding, Ping Luo
Abstract要約: 本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
参考スコア（独自算出の注目度）: 77.41969287400977
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rapid progress in high-level task planning and code generation for open-world robot manipulation has been witnessed in Embodied AI. However, previous studies put much effort into general common sense reasoning and task planning capabilities of large-scale language or multi-modal models, relatively little effort on ensuring the deployability of generated code on real robots, and other fundamental components of autonomous robot systems including robot perception, motion planning, and control. To bridge this ``ideal-to-real'' gap, this paper presents \textbf{RobotScript}, a platform for 1) a deployable robot manipulation pipeline powered by code generation; and 2) a code generation benchmark for robot manipulation tasks in free-form natural language. The RobotScript platform addresses this gap by emphasizing the unified interface with both simulation and real robots, based on abstraction from the Robot Operating System (ROS), ensuring syntax compliance and simulation validation with Gazebo. We demonstrate the adaptability of our code generation framework across multiple robot embodiments, including the Franka and UR5 robot arms, and multiple grippers. Additionally, our benchmark assesses reasoning abilities for physical space and constraints, highlighting the differences between GPT-3.5, GPT-4, and Gemini in handling complex physical interactions. Finally, we present a thorough evaluation on the whole system, exploring how each module in the pipeline: code generation, perception, motion planning, and even object geometric properties, impact the overall performance of the system.
Abstract（参考訳）: Embodied AIでは、オープンソースのロボット操作のためのハイレベルなタスク計画とコード生成の急速な進歩が目撃されている。しかし、以前の研究では、大規模言語やマルチモーダルモデルの一般的な常識推論とタスク計画能力、実際のロボット上で生成されたコードのデプロイ性を保証するための比較的小さな努力、ロボット知覚、運動計画、制御を含む自律ロボットシステムの基本的コンポーネントに多くの努力を払っていた。この ‘ideal-to-real'' ギャップを埋めるために,本稿では,プラットフォームである \textbf{robotscript} を提案する。 1)コード生成によるデプロイ可能なロボット操作パイプライン、 2)自由形自然言語におけるロボット操作タスクのコード生成ベンチマーク。 robotscriptプラットフォームは、robot operating system(ros)の抽象化に基づいて、シミュレーションと実際のロボットとの統一インターフェースを強調し、gazingboによる構文コンプライアンスとシミュレーション検証を保証することで、このギャップに対処している。我々は,Franka と UR5 のロボットアームや複数のグリップパーなど,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。さらに,本ベンチマークでは,GPT-3.5,GPT-4,およびGeminiの複雑な物理的相互作用の処理における相違点を明らかにする。最後に、システム全体の徹底的な評価を行い、パイプライン内の各モジュール(コード生成、知覚、動き計画、さらにはオブジェクトの幾何学的特性)がシステム全体のパフォーマンスに与える影響について検討する。

関連論文リスト

Taccel: Scaling Up Vision-based Tactile Robotics via High-performance GPU Simulation [50.34179054785646]
ロボット,触覚センサ,物体を精度と前例のない速度でモデル化するために,IPCとABDを統合した高性能なシミュレーションプラットフォームであるTaccelを提案する。 Taccelは正確な物理シミュレーションとリアルな触覚信号を提供し、ユーザフレンドリーなAPIを通じて柔軟なロボットセンサー構成をサポートする。これらの能力は、触覚ロボットの研究と開発を拡大するための強力なツールとして、Taccelを位置づけている。
論文参考訳（メタデータ） (2025-04-17T12:57:11Z)
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文参考訳（メタデータ） (2025-03-18T21:06:21Z)
Robotic Programmer: Video Instructed Policy Code Generation for Robotic Manipulation [29.67033327646875]
RoboProは、ゼロショット方式でポリシーコードでロボット操作を行うロボット基礎モデルである。 RoboProは、シミュレータと現実世界の両方の環境でのロボット操作において、最先端のゼロショットのパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-08T04:30:45Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
$\textbf{EMOS}$: $\textbf{E}$mbodiment-aware Heterogeneous $\textbf{M}$ulti-robot $\textbf{O}$perating $\textbf{S}$ystem with LLM Agents [33.77674812074215]
異種ロボット間の効果的な協調を実現するための新しいマルチエージェントフレームワークを提案する。エージェントがロボットURDFファイルを理解し、ロボットキネマティクスツールを呼び出し、その物理能力の記述を生成する。 Habitat-MASベンチマークは、マルチエージェントフレームワークがエンボディメント認識推論を必要とするタスクをどのように処理するかを評価するように設計されている。
論文参考訳（メタデータ） (2024-10-30T03:20:01Z)
GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-10-09T02:00:37Z)
RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version) [25.298789781487084]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文参考訳（メタデータ） (2024-09-04T17:59:52Z)
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-15T06:40:38Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。 RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文参考訳（メタデータ） (2024-02-25T15:31:43Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
SEAL: Semantic Frame Execution And Localization for Perceiving Afforded Robot Actions [5.522839151632667]
本稿では,ロボット操作行動のセマンティックフレーム表現を拡張し,セマンティックフレーム実行と局所化の問題をグラフィカルモデルとして導入する。 SEAL問題に対して、ロボットに与えられた行動の場所として、有限のセマンティックフレームに対する信念を維持するための非パラメトリックセマンティックフレームマッピング(SeFM)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2023-03-24T15:25:41Z)
robo-gym -- An Open Source Toolkit for Distributed Deep Reinforcement Learning on Real and Simulated Robots [0.5161531917413708]
本稿では,ロボットによる深層強化学習を向上するためのオープンソースのツールキット,robo-gymを提案する。シミュレーションにおけるトレーニングからロボットへのシームレスな移動を可能にするシミュレーション環境と実環境の統一的なセットアップを実証する。産業用ロボットを特徴とする2つの実世界アプリケーションを用いて,本フレームワークの能力と有効性を示す。
論文参考訳（メタデータ） (2020-07-06T13:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。