Fugu-MT 論文翻訳(概要): EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

論文の概要: EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

arxiv url: http://arxiv.org/abs/2305.15021v1
Date: Wed, 24 May 2023 11:04:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 16:46:08.897455
Title: EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
Title（参考訳）: embodiedgpt: 思考の具体的連鎖による視覚言語事前学習
Authors: Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo
Abstract要約: Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
参考スコア（独自算出の注目度）: 62.37505571083758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Embodied AI is a crucial frontier in robotics, capable of planning and executing action sequences for robots to accomplish long-horizon tasks in physical environments. In this work, we introduce EmbodiedGPT, an end-to-end multi-modal foundation model for embodied AI, empowering embodied agents with multi-modal understanding and execution capabilities. To achieve this, we have made the following efforts: (i) We craft a large-scale embodied planning dataset, termed EgoCOT. The dataset consists of carefully selected videos from the Ego4D dataset, along with corresponding high-quality language instructions. Specifically, we generate a sequence of sub-goals with the "Chain of Thoughts" mode for effective embodied planning. (ii) We introduce an efficient training approach to EmbodiedGPT for high-quality plan generation, by adapting a 7B large language model (LLM) to the EgoCOT dataset via prefix tuning. (iii) We introduce a paradigm for extracting task-related features from LLM-generated planning queries to form a closed loop between high-level planning and low-level control. Extensive experiments show the effectiveness of EmbodiedGPT on embodied tasks, including embodied planning, embodied control, visual captioning, and visual question answering. Notably, EmbodiedGPT significantly enhances the success rate of the embodied control task by extracting more effective features. It has achieved a remarkable 1.6 times increase in success rate on the Franka Kitchen benchmark and a 1.3 times increase on the Meta-World benchmark, compared to the BLIP-2 baseline fine-tuned with the Ego4D dataset.
Abstract（参考訳）: Embodied AIはロボット工学における重要なフロンティアであり、ロボットが物理的な環境で長時間の作業を達成するためのアクションシーケンスを計画し実行することができる。本稿では,エンボディaiのためのエンドツーエンドのマルチモーダル基盤モデルであるembodiedgptを紹介し,マルチモーダル理解と実行能力を備えたエンボディエージェントの能力について述べる。これを達成するために、私たちは以下の努力をしました。 i)EgoCOTと呼ばれる大規模実施計画データセットを構築した。データセットは、Ego4Dデータセットから慎重に選択されたビデオと、それに対応する高品質な言語命令で構成されている。具体的には、効果的な実施計画のための「思考の連鎖」モードによる一連のサブゴールを生成する。 (ii)プレフィックスチューニングにより,7b大言語モデル(llm)をエゴコットデータセットに適用することにより,高品質な計画生成のための効果的な訓練手法を提案する。 3)LLM生成計画クエリからタスク関連特徴を抽出し,高レベル計画と低レベル制御のクローズドループを形成するパラダイムを導入する。広汎な実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。特に、EmbodiedGPTは、より効果的な特徴を抽出することにより、実施制御タスクの成功率を大幅に向上させる。また、Franka Kitchenベンチマークでは1.6倍、Meta-Worldベンチマークでは1.3倍、Ego4DデータセットではBLIP-2ベースラインが微調整されている。

関連論文リスト

MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。 MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2026-02-22T01:39:16Z)
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks [66.86312354478478]
大規模言語モデル(LLM)に基づくエージェントは、長期的タスクにおけるグローバルな計画の欠如により、脳の無い試行錯誤と幻覚行動を引き起こす。計画実行フレームワークを導入し,人的努力を伴わずに実行エージェントの計画能力を高めるためのプランナー訓練手法を提案する。実験の結果,我々のプランナーを組み込んだ実行エージェントは既存の手法よりも優れており,新たな最先端性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-10-07T06:10:53Z)
BERT4beam: Large AI Model Enabled Generalized Beamforming Optimization [77.17508487745026]
本稿では,ビームフォーミング最適化のための大規模AIモデルについて検討する。本稿では、BERT4エンコーダと呼ばれる変換器(BERT)からの双方向エンコーダ表現に基づく新しいフレームワークを提案する。本フレームワークをベースとして,単一タスクとマルチタスクのビームフォーミング最適化のためのBERTベースの2つのアプローチを提案する。
論文参考訳（メタデータ） (2025-09-14T02:49:29Z)
Enhancing Visual Planning with Auxiliary Tasks and Multi-token Prediction [41.63965006043724]
Visual Planning for Assistance (VPA)は、ユーザの進捗を示すビデオに基づいて、特定の目標を達成するために必要な一連のユーザアクションを予測することを目的としている。マルチモーダル大言語モデル(MLLM)の最近の進歩は、ビデオ理解において有望な結果を示している。ビデオベースプランニングタスクにおいて,大規模なMLLMを訓練する上での課題を2つ挙げる。
論文参考訳（メタデータ） (2025-07-20T21:39:05Z)
Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-28T07:21:37Z)
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文参考訳（メタデータ） (2025-03-13T15:49:56Z)
EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。 LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。最適な計画生成のための幅優先探索アルゴリズムを採用している。実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-09-30T17:57:28Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution [2.2369578015657954]
実生活環境におけるロボットのタスクプランニングは重要な課題である。これらの課題は、目標を達成するためのステップの基底的なシーケンスを特定することの難しさ、高レベルのアクションと低レベルのコマンドの標準化されたマッピングの欠如、ロボットハードウェアの限られたリソースを考えると、計算オーバーヘッドを低く抑えることの3つの問題に起因している。オープン・ボキャブラリ・オンライン・グラウンドディングのためのフレームワークであるEMPOWERを紹介し,これらの問題に対処するための具体的エージェントの計画について述べる。
論文参考訳（メタデータ） (2024-08-30T16:15:28Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Integrating Intent Understanding and Optimal Behavior Planning for Behavior Tree Generation from Human Instructions [5.31484618181979]
動作木(BT)は、人間の指示に従ってタスクを実行するロボットのための適切な制御アーキテクチャである。本稿では,BT生成のための2段階のフレームワークを提案する。我々は、一階述語論理における目的と十分に整形された公式を表現し、意図の理解と最適な行動計画を効果的にブリッジする。
論文参考訳（メタデータ） (2024-05-13T05:23:48Z)
Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。 EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。トレーニングデータを必要とせずに推測できる最初のゼロショットプランニング手法であるソクラティックプランナーを紹介する。
論文参考訳（メタデータ） (2024-04-21T08:10:20Z)
Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-01-15T18:01:59Z)
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。 EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文参考訳（メタデータ） (2023-12-11T03:35:58Z)
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文参考訳（メタデータ） (2023-05-30T09:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。