論文の概要: DamWorld: Progressive Reasoning with World Models for Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2306.11335v3
- Date: Mon, 8 Jan 2024 13:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:35:19.975608
- Title: DamWorld: Progressive Reasoning with World Models for Robotic
Manipulation
- Title(参考訳): DamWorld: ロボットマニピュレーションのための世界モデルによるプログレッシブ推論
- Authors: Pengzhen Ren, Kaidong Zhang, Hetao Zheng, Zixuan Li, Yuhang Wen,
Fengda Zhu, Mas Ma, Xiaodan Liang
- Abstract要約: 本論文では,SeaWaveと呼ばれる総合的かつ体系的なロボット操作ベンチマークを構築した。
マルチモーダル環境で、組み込みAIエージェントのための標準テストプラットフォームを提供する。
本研究では,DamWorldと呼ばれるクロスモーダルロボット操作に適した新しい世界モデルを提案する。
- 参考スコア(独自算出の注目度): 53.468924348313664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research on embodied AI has greatly promoted the development of robot
manipulation. However, it still faces significant challenges in various aspects
such as benchmark construction, multi-modal perception and decision-making, and
physical execution. Previous robot manipulation simulators were primarily
designed to enrich manipulation types and types of objects while neglecting the
balance between physical manipulation and language instruction complexity in
multi-modal environments. This paper proposes a new robot manipulation
simulator and builds a comprehensive and systematic robot manipulation
benchmark with progressive reasoning tasks called SeaWave (i.e., a progressive
reasoning benchmark). It provides a standard test platform for embedded AI
agents in a multi-modal environment, which can evaluate and execute four levels
of human natural language instructions at the same time.
Previous world model-based robot manipulation work lacked research on the
perception and decision-making of complex instructions in multi-modal
environments. To this end, we propose a new world model tailored for
cross-modal robot manipulation called DamWorld. Specifically, DamWorld takes
the current visual scene and predicted execution actions based on natural
language instructions as input, and uses the next action frame to supervise the
output of the world model to force the model to learn robot manipulation
consistent with world knowledge. Compared with the renowned baselines (e.g.,
RT-1), our DamWorld improves the manipulation success rate by 5.6% on average
on four levels of progressive reasoning tasks. It is worth noting that on the
most challenging level 4 manipulation task, DamWorld still improved by 9.0%
compared to prior works.
- Abstract(参考訳): 具体的AIの研究はロボット操作の発展を大いに促進してきた。
しかし、ベンチマーク構築、マルチモーダル知覚、意思決定、物理的実行など、さまざまな面で大きな課題に直面している。
従来のロボット操作シミュレータは、マルチモーダル環境における物理操作と言語命令の複雑さのバランスを無視しながら、操作タイプとオブジェクトのタイプを豊かにするために設計されていた。
本稿では,新しいロボット操作シミュレータを提案し,シーウェーブと呼ばれるプログレッシブ推論タスクを用いた包括的かつ体系的なロボット操作ベンチマーク(即ちプログレッシブ推論ベンチマーク)を構築する。
マルチモーダル環境における組み込みaiエージェントのための標準テストプラットフォームを提供し、同時に4つのレベルの人間の自然言語命令を評価し実行することができる。
従来の世界モデルに基づくロボット操作作業は、マルチモーダル環境における複雑な命令の認識と意思決定に関する研究を欠いていた。
そこで本研究では, クロスモーダルロボット操作のための新しい世界モデルであるdamworldを提案する。
具体的には、DamWorldは現在の視覚的なシーンを取り込み、自然言語の指示に基づいて実行行動を予測し、次のアクションフレームを使用して世界モデルの出力を監督し、世界知識と整合したロボットの操作を学習させる。
私たちのDamWorldは、有名なベースライン(RT-1など)と比較して、4段階のプログレッシブ推論タスクで平均5.6%の操作成功率を改善する。
もっとも難しいレベル4操作タスクでは、DamWorldは以前の作業と比べて9.0%改善している点に注意が必要だ。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Manipulate-Anything: Automating Real-World Robots using Vision-Language Models [47.16659229389889]
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。
Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
論文 参考訳(メタデータ) (2024-06-27T06:12:01Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。