論文の概要: DamWorld: Progressive Reasoning with World Models for Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2306.11335v3
- Date: Mon, 8 Jan 2024 13:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:35:19.975608
- Title: DamWorld: Progressive Reasoning with World Models for Robotic
Manipulation
- Title(参考訳): DamWorld: ロボットマニピュレーションのための世界モデルによるプログレッシブ推論
- Authors: Pengzhen Ren, Kaidong Zhang, Hetao Zheng, Zixuan Li, Yuhang Wen,
Fengda Zhu, Mas Ma, Xiaodan Liang
- Abstract要約: 本論文では,SeaWaveと呼ばれる総合的かつ体系的なロボット操作ベンチマークを構築した。
マルチモーダル環境で、組み込みAIエージェントのための標準テストプラットフォームを提供する。
本研究では,DamWorldと呼ばれるクロスモーダルロボット操作に適した新しい世界モデルを提案する。
- 参考スコア(独自算出の注目度): 53.468924348313664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research on embodied AI has greatly promoted the development of robot
manipulation. However, it still faces significant challenges in various aspects
such as benchmark construction, multi-modal perception and decision-making, and
physical execution. Previous robot manipulation simulators were primarily
designed to enrich manipulation types and types of objects while neglecting the
balance between physical manipulation and language instruction complexity in
multi-modal environments. This paper proposes a new robot manipulation
simulator and builds a comprehensive and systematic robot manipulation
benchmark with progressive reasoning tasks called SeaWave (i.e., a progressive
reasoning benchmark). It provides a standard test platform for embedded AI
agents in a multi-modal environment, which can evaluate and execute four levels
of human natural language instructions at the same time.
Previous world model-based robot manipulation work lacked research on the
perception and decision-making of complex instructions in multi-modal
environments. To this end, we propose a new world model tailored for
cross-modal robot manipulation called DamWorld. Specifically, DamWorld takes
the current visual scene and predicted execution actions based on natural
language instructions as input, and uses the next action frame to supervise the
output of the world model to force the model to learn robot manipulation
consistent with world knowledge. Compared with the renowned baselines (e.g.,
RT-1), our DamWorld improves the manipulation success rate by 5.6% on average
on four levels of progressive reasoning tasks. It is worth noting that on the
most challenging level 4 manipulation task, DamWorld still improved by 9.0%
compared to prior works.
- Abstract(参考訳): 具体的AIの研究はロボット操作の発展を大いに促進してきた。
しかし、ベンチマーク構築、マルチモーダル知覚、意思決定、物理的実行など、さまざまな面で大きな課題に直面している。
従来のロボット操作シミュレータは、マルチモーダル環境における物理操作と言語命令の複雑さのバランスを無視しながら、操作タイプとオブジェクトのタイプを豊かにするために設計されていた。
本稿では,新しいロボット操作シミュレータを提案し,シーウェーブと呼ばれるプログレッシブ推論タスクを用いた包括的かつ体系的なロボット操作ベンチマーク(即ちプログレッシブ推論ベンチマーク)を構築する。
マルチモーダル環境における組み込みaiエージェントのための標準テストプラットフォームを提供し、同時に4つのレベルの人間の自然言語命令を評価し実行することができる。
従来の世界モデルに基づくロボット操作作業は、マルチモーダル環境における複雑な命令の認識と意思決定に関する研究を欠いていた。
そこで本研究では, クロスモーダルロボット操作のための新しい世界モデルであるdamworldを提案する。
具体的には、DamWorldは現在の視覚的なシーンを取り込み、自然言語の指示に基づいて実行行動を予測し、次のアクションフレームを使用して世界モデルの出力を監督し、世界知識と整合したロボットの操作を学習させる。
私たちのDamWorldは、有名なベースライン(RT-1など)と比較して、4段階のプログレッシブ推論タスクで平均5.6%の操作成功率を改善する。
もっとも難しいレベル4操作タスクでは、DamWorldは以前の作業と比べて9.0%改善している点に注意が必要だ。
関連論文リスト
- RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [30.717399460407407]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。