論文の概要: EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.06722v1
- Date: Mon, 11 Dec 2023 03:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:33:25.110368
- Title: EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models
- Title(参考訳): egoplan-bench:マルチモーダル大規模言語モデルによるegocentricembodied planningのベンチマーク
- Authors: Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang,
Ruifeng Xu, Ying Shan, Xihui Liu
- Abstract要約: EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
- 参考スコア(独自算出の注目度): 87.8282946526824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs), building upon the powerful Large
Language Models (LLMs) with exceptional reasoning and generalization
capability, have opened up new avenues for embodied task planning. MLLMs excel
in their ability to integrate diverse environmental inputs, such as real-time
task progress, visual observations, and open-form language instructions, which
are crucial for executable task planning. In this work, we introduce a
benchmark with human annotations, EgoPlan-Bench, to quantitatively investigate
the potential of MLLMs as embodied task planners in real-world scenarios. Our
benchmark is distinguished by realistic tasks derived from real-world videos, a
diverse set of actions involving interactions with hundreds of different
objects, and complex visual observations from varied environments. We evaluate
various open-source MLLMs, revealing that these models have not yet evolved
into embodied planning generalists (even GPT-4V). We further construct an
instruction-tuning dataset EgoPlan-IT from videos of human-object interactions,
to facilitate the learning of high-level task planning in intricate real-world
situations. The experiment results demonstrate that the model tuned on
EgoPlan-IT not only significantly improves performance on our benchmark, but
also effectively acts as embodied planner in simulations.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、強力なLarge Language Models(LLMs)を基盤として、例外的な推論と一般化能力を持つシステムである。
MLLMは、リアルタイムタスクの進捗、視覚観察、オープンフォーム言語指示といった、実行可能タスク計画に不可欠な多様な環境入力を統合する能力に優れています。
本研究では,実世界のシナリオにおいて,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
このベンチマークは,実世界の映像から得られる現実的なタスク,数百の異なるオブジェクトとのインタラクションを含む多様なアクション,さまざまな環境からの複雑な視覚観察によって区別される。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体的計画ジェネリスト(GPT-4V)に進化していないことを明らかにした。
さらに,人間とオブジェクトのインタラクションのビデオから,インストラクションチューニングデータセット egoplan-it を構築し,複雑な実環境におけるハイレベルなタスク計画の学習を容易にする。
実験の結果,EgoPlan-ITで調整したモデルでは,ベンチマークの性能が大幅に向上するだけでなく,シミュレーションにおける具体的プランナーとして効果的に機能することが示された。
関連論文リスト
- A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models [7.216683826556268]
大きな言語モデル(LLM)は、計画機能を必要とするアプリケーションにますます使われています。
我々は,新しいハイブリッド・メソドであるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。
論文 参考訳(メタデータ) (2024-02-18T07:42:49Z) - Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。
各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (2024-02-05T04:25:24Z) - On the Prospects of Incorporating Large Language Models (LLMs) in
Automated Planning and Scheduling (APS) [23.024862968785147]
本稿では, LLMのユニークな応用に基づく8つのカテゴリを, 計画問題の諸側面に対処するために検討する。
我々のレビューから得られた重要な洞察は、LLMの真の可能性は、従来のシンボリックプランナーと統合されたときに広がります。
論文 参考訳(メタデータ) (2024-01-04T19:22:09Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Plansformer: Generating Symbolic Plans using Transformers [24.375997526106246]
大規模言語モデル(LLM)は、自然言語処理(NLP)分野を著しく進歩させ、活発な研究対象となっている。
プランフォーマーは計画上の問題に微調整され、知識工学の努力を減らし、正確さと長さの点で良好な行動で計画を生成することができる。
Plansformerの1つの構成では、97%の有効なプランが達成されます。
論文 参考訳(メタデータ) (2022-12-16T19:06:49Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。