論文の概要: EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.06722v1
- Date: Mon, 11 Dec 2023 03:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:33:25.110368
- Title: EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models
- Title(参考訳): egoplan-bench:マルチモーダル大規模言語モデルによるegocentricembodied planningのベンチマーク
- Authors: Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang,
Ruifeng Xu, Ying Shan, Xihui Liu
- Abstract要約: EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
- 参考スコア(独自算出の注目度): 87.8282946526824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs), building upon the powerful Large
Language Models (LLMs) with exceptional reasoning and generalization
capability, have opened up new avenues for embodied task planning. MLLMs excel
in their ability to integrate diverse environmental inputs, such as real-time
task progress, visual observations, and open-form language instructions, which
are crucial for executable task planning. In this work, we introduce a
benchmark with human annotations, EgoPlan-Bench, to quantitatively investigate
the potential of MLLMs as embodied task planners in real-world scenarios. Our
benchmark is distinguished by realistic tasks derived from real-world videos, a
diverse set of actions involving interactions with hundreds of different
objects, and complex visual observations from varied environments. We evaluate
various open-source MLLMs, revealing that these models have not yet evolved
into embodied planning generalists (even GPT-4V). We further construct an
instruction-tuning dataset EgoPlan-IT from videos of human-object interactions,
to facilitate the learning of high-level task planning in intricate real-world
situations. The experiment results demonstrate that the model tuned on
EgoPlan-IT not only significantly improves performance on our benchmark, but
also effectively acts as embodied planner in simulations.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、強力なLarge Language Models(LLMs)を基盤として、例外的な推論と一般化能力を持つシステムである。
MLLMは、リアルタイムタスクの進捗、視覚観察、オープンフォーム言語指示といった、実行可能タスク計画に不可欠な多様な環境入力を統合する能力に優れています。
本研究では,実世界のシナリオにおいて,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
このベンチマークは,実世界の映像から得られる現実的なタスク,数百の異なるオブジェクトとのインタラクションを含む多様なアクション,さまざまな環境からの複雑な視覚観察によって区別される。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体的計画ジェネリスト(GPT-4V)に進化していないことを明らかにした。
さらに,人間とオブジェクトのインタラクションのビデオから,インストラクションチューニングデータセット egoplan-it を構築し,複雑な実環境におけるハイレベルなタスク計画の学習を容易にする。
実験の結果,EgoPlan-ITで調整したモデルでは,ベンチマークの性能が大幅に向上するだけでなく,シミュレーションにおける具体的プランナーとして効果的に機能することが示された。
関連論文リスト
- Multimodal Embodied Interactive Agent for Cafe Scene [86.81802927029976]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models [78.43468551763303]
我々は,動的ビデオタスクを扱うLLMによって駆動される包括的かつ概念的にエレガントなシステムであるドラモンGPTを考案した。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
3つのベンチマークでDoraemonGPTの有効性を広く評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - MLLM-Bench, Evaluating Multi-modal LLMs using GPT-4V [44.0908994116986]
視覚言語モデル(MLLM)は、人間の脳のマルチモーダル能力に合わせて、AIアプリケーションを拡張した。
MLLMの有効性を評価することは、不十分な回答を欠くタスクの主観的な性質のために大きな課題となる。
MLLM-Benchは、Vicunaにインスパイアされた革新的なベンチマークで、さまざまなシナリオにまたがる。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。