論文の概要: EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2312.06722v2
- Date: Wed, 17 Apr 2024 13:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:10:55.510098
- Title: EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models
- Title(参考訳): EgoPlan-Bench: マルチモーダルな大規模言語モデルによるエゴセントリックな実施計画のベンチマーク
- Authors: Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang, Ruifeng Xu, Ying Shan, Xihui Liu,
- Abstract要約: 実世界のシナリオにおけるマルチモーダル言語モデル(MLLM)の具体的タスクプランナとしての可能性について定量的に検討する。
我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。
本研究では,複雑な実世界の状況下での高度タスク計画の学習を容易にするために,インストラクションチューニングデータセットEgoPlan-ITを構築した。
- 参考スコア(独自算出の注目度): 84.6451394629312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models, combining the remarkable reasoning and generalization capabilities of Large Language Models (LLMs) with the ability to comprehend visual inputs, have opened up new avenues for embodied task planning. Given diverse environmental inputs, including real-time task progress, visual observations, and open-form language instructions, a proficient task planner is expected to predict feasible actions, which is a feat inherently achievable by Multimodal Large Language Models (MLLMs). In this paper, we aim to quantitatively investigate the potential of MLLMs as embodied task planners in real-world scenarios by introducing a benchmark with human annotations named EgoPlan-Bench. Our benchmark is distinguished by realistic tasks derived from real-world videos, a diverse set of actions involving interactions with hundreds of different objects, and complex visual observations from varied scenes. We evaluate a wide range of MLLMs, revealing that these models have not yet evolved into embodied planning generalists (even GPT-4V). We further construct an instruction-tuning dataset EgoPlan-IT from videos with human-object interactions, to facilitate the learning of high-level task planning in intricate real-world situations. The experiment results demonstrate that the model tuned on EgoPlan-IT not only significantly improves performance on our benchmark, but can also be applied as a task planner for guiding embodied agents in simulations.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な推論と一般化能力と視覚的入力の理解能力を組み合わせたマルチモーダル大規模言語モデルが,具体的タスク計画のための新たな道を開いた。
リアルタイムタスクの進行、視覚観察、オープンフォーム言語指示などの多様な環境入力を前提として、熟練したタスクプランナーは、マルチモーダル大規模言語モデル(MLLM)によって本質的に達成可能な、実行可能なアクションを予測することが期待されている。
本稿では,エゴプランベンチ(EgoPlan-Bench)というアノテーションを用いたベンチマークを導入することで,実環境シナリオにおけるMLLMの具体的タスクプランナとしての可能性について定量的に検討することを目的とする。
我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。
我々はMLLMを幅広く評価し、これらのモデルがまだ具体化計画ジェネラリスト(GPT-4V)に進化していないことを明らかにした。
実世界の複雑な状況下での高レベルのタスクプランニングの学習を容易にするため、人間とオブジェクトの相互作用のあるビデオからインストラクションチューニングデータセットEgoPlan-ITを構築した。
実験結果から,EgoPlan-ITで調整したモデルでは,ベンチマークの性能が大幅に向上するだけでなく,シミュレーションにおいて具体的エージェントを導くタスクプランナとしても適用可能であることが示された。
関連論文リスト
- A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models [7.216683826556268]
大きな言語モデル(LLM)は、計画機能を必要とするアプリケーションにますます使われています。
我々は,新しいハイブリッド・メソドであるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。
論文 参考訳(メタデータ) (2024-02-18T07:42:49Z) - Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。
各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (2024-02-05T04:25:24Z) - On the Prospects of Incorporating Large Language Models (LLMs) in
Automated Planning and Scheduling (APS) [23.024862968785147]
本稿では, LLMのユニークな応用に基づく8つのカテゴリを, 計画問題の諸側面に対処するために検討する。
我々のレビューから得られた重要な洞察は、LLMの真の可能性は、従来のシンボリックプランナーと統合されたときに広がります。
論文 参考訳(メタデータ) (2024-01-04T19:22:09Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Plansformer: Generating Symbolic Plans using Transformers [24.375997526106246]
大規模言語モデル(LLM)は、自然言語処理(NLP)分野を著しく進歩させ、活発な研究対象となっている。
プランフォーマーは計画上の問題に微調整され、知識工学の努力を減らし、正確さと長さの点で良好な行動で計画を生成することができる。
Plansformerの1つの構成では、97%の有効なプランが達成されます。
論文 参考訳(メタデータ) (2022-12-16T19:06:49Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。