論文の概要: RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis
- arxiv url: http://arxiv.org/abs/2402.16117v1
- Date: Sun, 25 Feb 2024 15:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:26:31.886914
- Title: RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis
- Title(参考訳): RoboCodeX:ロボット行動合成のためのマルチモーダルコード生成
- Authors: Yao Mu, Junting Chen, Qinglong Zhang, Shoufa Chen, Qiaojun Yu,
Chongjian Ge, Runjian Chen, Zhixuan Liang, Mengkang Hu, Chaofan Tao, Peize
Sun, Haibao Yu, Chao Yang, Wenqi Shao, Wenhai Wang, Jifeng Dai, Yu Qiao,
Mingyu Ding, Ping Luo
- Abstract要約: 汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
- 参考スコア(独自算出の注目度): 102.1876259853457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic behavior synthesis, the problem of understanding multimodal inputs
and generating precise physical control for robots, is an important part of
Embodied AI. Despite successes in applying multimodal large language models for
high-level understanding, it remains challenging to translate these conceptual
understandings into detailed robotic actions while achieving generalization
across various scenarios. In this paper, we propose a tree-structured
multimodal code generation framework for generalized robotic behavior
synthesis, termed RoboCodeX. RoboCodeX decomposes high-level human instructions
into multiple object-centric manipulation units consisting of physical
preferences such as affordance and safety constraints, and applies code
generation to introduce generalization ability across various robotics
platforms. To further enhance the capability to map conceptual and perceptual
understanding into control commands, a specialized multimodal reasoning dataset
is collected for pre-training and an iterative self-updating methodology is
introduced for supervised fine-tuning. Extensive experiments demonstrate that
RoboCodeX achieves state-of-the-art performance in both simulators and real
robots on four different kinds of manipulation tasks and one navigation task.
- Abstract(参考訳): ロボット行動合成は、マルチモーダル入力を理解し、ロボットの正確な物理的制御を生成する問題であり、Embodied AIの重要な部分である。
マルチモーダルな大規模言語モデルをハイレベルな理解に応用することは成功したが、これらの概念的理解を様々なシナリオにまたがる一般化を達成しつつ、詳細なロボット行動に変換することは依然として困難である。
本稿では,RoboCodeXと呼ばれる汎用ロボット行動合成のための木構造型マルチモーダルコード生成フレームワークを提案する。
robocodexは、アフォーマンスや安全性の制約といった物理的な好みからなる、複数のオブジェクト中心の操作ユニットにハイレベルなヒューマン命令を分解し、様々なロボティクスプラットフォームにまたがる一般化能力を導入するためにコード生成を適用する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
広範な実験により、robocodexは4種類の操作タスクと1つのナビゲーションタスクでシミュレーターと実際のロボットの両方で最先端のパフォーマンスを達成している。
関連論文リスト
- RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [30.717399460407407]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning
via Generative Simulation [64.51563634951394]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - DamWorld: Progressive Reasoning with World Models for Robotic
Manipulation [53.468924348313664]
本論文では,SeaWaveと呼ばれる総合的かつ体系的なロボット操作ベンチマークを構築した。
マルチモーダル環境で、組み込みAIエージェントのための標準テストプラットフォームを提供する。
本研究では,DamWorldと呼ばれるクロスモーダルロボット操作に適した新しい世界モデルを提案する。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - MetaMorph: Learning Universal Controllers with Transformers [45.478223199658785]
ロボット工学では、主に1つのタスクのために1つのロボットを訓練します。
モジュラーロボットシステムは、汎用的なビルディングブロックをタスク最適化形態に柔軟な組み合わせを可能にする。
モジュール型ロボット設計空間上でユニバーサルコントローラを学習するためのトランスフォーマーベースのアプローチであるMetaMorphを提案する。
論文 参考訳(メタデータ) (2022-03-22T17:58:31Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Manipulation of Articulated Objects using Dual-arm Robots via Answer Set
Programming [10.316694915810947]
調音物体の操作はロボティクスにおいて最も重要なものであり、最も複雑な操作の1つと見なすことができる。
従来、この問題は、柔軟性と移植性に欠けるアドホックなアプローチによって対処されてきた。
本稿では,ロボット制御アーキテクチャにおける調音オブジェクトの自動操作のための解答セットプログラミング(ASP)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-02T18:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。