論文の概要: EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
- arxiv url: http://arxiv.org/abs/2305.15021v1
- Date: Wed, 24 May 2023 11:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:46:08.897455
- Title: EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
- Title(参考訳): embodiedgpt: 思考の具体的連鎖による視覚言語事前学習
- Authors: Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun
Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo
- Abstract要約: Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
- 参考スコア(独自算出の注目度): 62.37505571083758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied AI is a crucial frontier in robotics, capable of planning and
executing action sequences for robots to accomplish long-horizon tasks in
physical environments. In this work, we introduce EmbodiedGPT, an end-to-end
multi-modal foundation model for embodied AI, empowering embodied agents with
multi-modal understanding and execution capabilities. To achieve this, we have
made the following efforts: (i) We craft a large-scale embodied planning
dataset, termed EgoCOT. The dataset consists of carefully selected videos from
the Ego4D dataset, along with corresponding high-quality language instructions.
Specifically, we generate a sequence of sub-goals with the "Chain of Thoughts"
mode for effective embodied planning. (ii) We introduce an efficient training
approach to EmbodiedGPT for high-quality plan generation, by adapting a 7B
large language model (LLM) to the EgoCOT dataset via prefix tuning. (iii) We
introduce a paradigm for extracting task-related features from LLM-generated
planning queries to form a closed loop between high-level planning and
low-level control. Extensive experiments show the effectiveness of EmbodiedGPT
on embodied tasks, including embodied planning, embodied control, visual
captioning, and visual question answering. Notably, EmbodiedGPT significantly
enhances the success rate of the embodied control task by extracting more
effective features. It has achieved a remarkable 1.6 times increase in success
rate on the Franka Kitchen benchmark and a 1.3 times increase on the Meta-World
benchmark, compared to the BLIP-2 baseline fine-tuned with the Ego4D dataset.
- Abstract(参考訳): Embodied AIはロボット工学における重要なフロンティアであり、ロボットが物理的な環境で長時間の作業を達成するためのアクションシーケンスを計画し実行することができる。
本稿では,エンボディaiのためのエンドツーエンドのマルチモーダル基盤モデルであるembodiedgptを紹介し,マルチモーダル理解と実行能力を備えたエンボディエージェントの能力について述べる。
これを達成するために、私たちは以下の努力をしました。
i)EgoCOTと呼ばれる大規模実施計画データセットを構築した。
データセットは、Ego4Dデータセットから慎重に選択されたビデオと、それに対応する高品質な言語命令で構成されている。
具体的には、効果的な実施計画のための「思考の連鎖」モードによる一連のサブゴールを生成する。
(ii)プレフィックスチューニングにより,7b大言語モデル(llm)をエゴコットデータセットに適用することにより,高品質な計画生成のための効果的な訓練手法を提案する。
3)LLM生成計画クエリからタスク関連特徴を抽出し,高レベル計画と低レベル制御のクローズドループを形成するパラダイムを導入する。
広汎な実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
特に、EmbodiedGPTは、より効果的な特徴を抽出することにより、実施制御タスクの成功率を大幅に向上させる。
また、Franka Kitchenベンチマークでは1.6倍、Meta-Worldベンチマークでは1.3倍、Ego4DデータセットではBLIP-2ベースラインが微調整されている。
関連論文リスト
- Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Multimodal Contextualized Plan Prediction for Embodied Task Completion [9.659463406886301]
タスクプランニングは従来のロボットシステムにおいて重要なコンポーネントであり、ロボットがより複雑なタスクを実行するためのきめ細かいスキルを組み立てることができる。
シミュレーション実施エージェントにおけるタスク完了のための自然言語を実行可能なアクションに翻訳する最近の作業構築システムは,低レベルのアクションシーケンスを直接予測することに焦点を当てている。
我々は,そのような具体化されたタスク完了データセット - TEACh に対して,より高いレベルの計画表現を予測することに集中する。
論文 参考訳(メタデータ) (2023-05-10T22:29:12Z) - Pretrained Language Models as Visual Planners for Human Assistance [12.8775186900555]
Visual Planning for Assistance (VPA)は、ユーザが複雑な多段階目標を達成するためのツールである。
VPAをビデオアクションセグメンテーションと予測に分解する。
この新しいアプローチは、Visual Language Model Based Planner (VLaMP)と呼ばれ、一連のメトリクスでベースラインを上回ります。
論文 参考訳(メタデータ) (2023-04-17T18:07:36Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。