論文の概要: Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V
- arxiv url: http://arxiv.org/abs/2404.10220v1
- Date: Tue, 16 Apr 2024 02:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:22:10.650722
- Title: Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V
- Title(参考訳): GPT-4Vを用いた閉ループオープン語彙移動操作
- Authors: Peiyuan Zhi, Zhiyuan Zhang, Muzhi Han, Zeyu Zhang, Zhitian Li, Ziyuan Jiao, Baoxiong Jia, Siyuan Huang,
- Abstract要約: オープン環境における自律型ロボットナビゲーションと操作のための,最初のクローズドループフレームワークであるCOME-robotを紹介する。
我々は,ロボット探索,ナビゲーション,操作のためのアクションプリミティブのライブラリを慎重に構築し,タスク計画におけるGPT-4Vの呼び出し可能な実行モジュールとして機能する。
我々は,COME-robotの設計が障害復旧,後続のフリーフォーム命令,長期タスクプランニングをいかに促進するかを明らかにするために,包括的解析を行う。
- 参考スコア(独自算出の注目度): 38.80155683176581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous robot navigation and manipulation in open environments require reasoning and replanning with closed-loop feedback. We present COME-robot, the first closed-loop framework utilizing the GPT-4V vision-language foundation model for open-ended reasoning and adaptive planning in real-world scenarios. We meticulously construct a library of action primitives for robot exploration, navigation, and manipulation, serving as callable execution modules for GPT-4V in task planning. On top of these modules, GPT-4V serves as the brain that can accomplish multimodal reasoning, generate action policy with code, verify the task progress, and provide feedback for replanning. Such design enables COME-robot to (i) actively perceive the environments, (ii) perform situated reasoning, and (iii) recover from failures. Through comprehensive experiments involving 8 challenging real-world tabletop and manipulation tasks, COME-robot demonstrates a significant improvement in task success rate (~25%) compared to state-of-the-art baseline methods. We further conduct comprehensive analyses to elucidate how COME-robot's design facilitates failure recovery, free-form instruction following, and long-horizon task planning.
- Abstract(参考訳): オープン環境での自律的なロボットナビゲーションと操作は、クローズドループフィードバックによる推論と再計画を必要とする。
COME-robotは,GPT-4Vビジョン言語基盤モデルを利用して,実世界のシナリオにおけるオープンエンド推論と適応計画を行う最初のクローズドループフレームワークである。
我々は,ロボット探索,ナビゲーション,操作のためのアクションプリミティブのライブラリを慎重に構築し,タスク計画におけるGPT-4Vの呼び出し可能な実行モジュールとして機能する。
これらのモジュールに加えて、GPT-4Vはマルチモーダル推論を達成し、コードでアクションポリシーを生成し、タスクの進捗を確認し、再計画のためのフィードバックを提供する脳として機能する。
このような設計はCOME-robotを可能にする
(i)環境を積極的に知覚する。
(二)位置推論を行い、
(三)故障から回復する。
8つの挑戦的な実世界のテーブルトップと操作タスクを含む包括的な実験を通じて、COME-robotは最先端のベースライン手法に比べてタスク成功率(~25%)が大幅に向上したことを示した。
さらに, COME-robotの設計が障害復旧, フリーフォーム命令, 長期タスクプランニングをいかに促進するかを明らかにするために, 包括的解析を行う。
関連論文リスト
- PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。
本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T17:33:32Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration [8.07285448283823]
本稿では,汎用視覚言語モデル(GPT-4V(ision))を強化し,ロボット操作のためのワンショット視覚教育を容易にするパイプラインを提案する。
このシステムは、人間がタスクを実行する様子を解析し、アベイランスに対する洞察を取り入れた実行可能なロボットプログラムを出力する。
様々なシナリオにわたる実験は、実際のロボットが1発の人間のデモンストレーションから操作できるようにする方法の有効性を実証している。
論文 参考訳(メタデータ) (2023-11-20T18:54:39Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。
このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。
我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文 参考訳(メタデータ) (2021-03-31T00:05:54Z) - Learning Symbolic Operators for Task and Motion Planning [29.639902380586253]
統合されたタスクとモーションプランナー(TAMP)は、モーションレベルの決定とタスクレベルの計画実現性の複雑な相互作用を処理します。
TAMPアプローチは、タスクレベルの検索を導くためにドメイン固有のシンボリック演算子に依存し、計画を効率的にします。
演算子学習のためのボトムアップリレーショナル学習法を提案し,TAMPシステムの計画に学習した演算子をどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-02-28T19:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。