Fugu-MT 論文翻訳(概要): RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

論文の概要: RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

arxiv url: http://arxiv.org/abs/2402.16117v1
Date: Sun, 25 Feb 2024 15:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 15:26:31.886914
Title: RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis
Title（参考訳）: RoboCodeX:ロボット行動合成のためのマルチモーダルコード生成
Authors: Yao Mu, Junting Chen, Qinglong Zhang, Shoufa Chen, Qiaojun Yu, Chongjian Ge, Runjian Chen, Zhixuan Liang, Mengkang Hu, Chaofan Tao, Peize Sun, Haibao Yu, Chao Yang, Wenqi Shao, Wenhai Wang, Jifeng Dai, Yu Qiao, Mingyu Ding, Ping Luo
Abstract要約: 汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。 RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
参考スコア（独自算出の注目度）: 102.1876259853457
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robotic behavior synthesis, the problem of understanding multimodal inputs and generating precise physical control for robots, is an important part of Embodied AI. Despite successes in applying multimodal large language models for high-level understanding, it remains challenging to translate these conceptual understandings into detailed robotic actions while achieving generalization across various scenarios. In this paper, we propose a tree-structured multimodal code generation framework for generalized robotic behavior synthesis, termed RoboCodeX. RoboCodeX decomposes high-level human instructions into multiple object-centric manipulation units consisting of physical preferences such as affordance and safety constraints, and applies code generation to introduce generalization ability across various robotics platforms. To further enhance the capability to map conceptual and perceptual understanding into control commands, a specialized multimodal reasoning dataset is collected for pre-training and an iterative self-updating methodology is introduced for supervised fine-tuning. Extensive experiments demonstrate that RoboCodeX achieves state-of-the-art performance in both simulators and real robots on four different kinds of manipulation tasks and one navigation task.
Abstract（参考訳）: ロボット行動合成は、マルチモーダル入力を理解し、ロボットの正確な物理的制御を生成する問題であり、Embodied AIの重要な部分である。マルチモーダルな大規模言語モデルをハイレベルな理解に応用することは成功したが、これらの概念的理解を様々なシナリオにまたがる一般化を達成しつつ、詳細なロボット行動に変換することは依然として困難である。本稿では,RoboCodeXと呼ばれる汎用ロボット行動合成のための木構造型マルチモーダルコード生成フレームワークを提案する。 robocodexは、アフォーマンスや安全性の制約といった物理的な好みからなる、複数のオブジェクト中心の操作ユニットにハイレベルなヒューマン命令を分解し、様々なロボティクスプラットフォームにまたがる一般化能力を導入するためにコード生成を適用する。概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。広範な実験により、robocodexは4種類の操作タスクと1つのナビゲーションタスクでシミュレーターと実際のロボットの両方で最先端のパフォーマンスを達成している。

関連論文リスト

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文参考訳（メタデータ） (2025-02-28T17:30:39Z)
Redefining Robot Generalization Through Interactive Intelligence [0.0]
ロボットファンデーションモデルは、リアルタイムの人間-ロボット共適応の複雑さを扱うために、インタラクティブなマルチエージェント視点に進化する必要がある、と我々は主張する。シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
論文参考訳（メタデータ） (2025-02-09T17:13:27Z)
Robotic Programmer: Video Instructed Policy Code Generation for Robotic Manipulation [29.67033327646875]
RoboProは、ゼロショット方式でポリシーコードでロボット操作を行うロボット基礎モデルである。 RoboProは、シミュレータと現実世界の両方の環境でのロボット操作において、最先端のゼロショットのパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-08T04:30:45Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文参考訳（メタデータ） (2024-10-02T13:23:02Z)
Unifying 3D Representation and Control of Diverse Robots with a Single Camera [48.279199537720714]
我々は,ロボットを視覚のみからモデル化し,制御することを自律的に学習するアーキテクチャであるNeural Jacobian Fieldsを紹介する。提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文参考訳（メタデータ） (2024-07-11T17:55:49Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文参考訳（メタデータ） (2023-11-02T17:59:21Z)
Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。 RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-09-11T16:28:25Z)
MetaMorph: Learning Universal Controllers with Transformers [45.478223199658785]
ロボット工学では、主に1つのタスクのために1つのロボットを訓練します。モジュラーロボットシステムは、汎用的なビルディングブロックをタスク最適化形態に柔軟な組み合わせを可能にする。モジュール型ロボット設計空間上でユニバーサルコントローラを学習するためのトランスフォーマーベースのアプローチであるMetaMorphを提案する。
論文参考訳（メタデータ） (2022-03-22T17:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。