論文の概要: ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models
- arxiv url: http://arxiv.org/abs/2410.14682v2
- Date: Thu, 13 Feb 2025 14:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:45:05.645870
- Title: ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models
- Title(参考訳): ET-Plan-Bench:基礎モデルによる空間的時間認知に向けたタスクレベルプランニングベンチマーク
- Authors: Lingfeng Zhang, Yuening Wang, Hongjian Gu, Atia Hamidizadeh, Zhanguang Zhang, Yuecheng Liu, Yutong Wang, David Gamaliel Arcos Bravo, Junyi Dong, Shunbo Zhou, Tongtong Cao, Xingyue Quan, Yuzheng Zhuang, Yingxue Zhang, Jianye Hao,
- Abstract要約: ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
- 参考スコア(独自算出の注目度): 38.89166693142495
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) have spurred numerous attempts to apply these technologies to embodied tasks, particularly focusing on high-level task planning and task decomposition. To further explore this area, we introduce a new embodied task planning benchmark, ET-Plan-Bench, which specifically targets embodied task planning using LLMs. It features a controllable and diverse set of embodied tasks varying in different levels of difficulties and complexities, and is designed to evaluate two critical dimensions of LLMs' application in embodied task understanding: spatial (relation constraint, occlusion for target objects) and temporal & causal understanding of the sequence of actions in the environment. By using multi-source simulators as the backend simulator, it can provide immediate environment feedback to LLMs, which enables LLMs to interact dynamically with the environment and re-plan as necessary. We evaluated the state-of-the-art open source and closed source foundation models, including GPT-4, LLAMA and Mistral on our proposed benchmark. While they perform adequately well on simple navigation tasks, their performance can significantly deteriorate when faced with tasks that require a deeper understanding of spatial, temporal, and causal relationships. Thus, our benchmark distinguishes itself as a large-scale, quantifiable, highly automated, and fine-grained diagnostic framework that presents a significant challenge to the latest foundation models. We hope it can spark and drive further research in embodied task planning using foundation models.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、これらの技術を具体化タスクに適用しようとする多くの試み、特にハイレベルなタスク計画とタスク分解に焦点を当てている。
この領域をさらに探求するために、新しい実施型タスク計画ベンチマークET-Plan-Benchを導入する。
異なる難易度や複雑さのレベルによって異なる、制御可能な多種多様な実施課題を特徴とし、環境における行動の順序に対する時間的・因果的理解と空間的(関係制約、対象対象物に対する排他的排除)の2つの重要次元のLLMの適用を評価するように設計されている。
マルチソースシミュレータをバックエンドシミュレータとして使用することにより、LLMに即時環境フィードバックを提供することで、LLMが環境と動的に対話し、必要に応じて再計画することができる。
GPT-4, LLAMA, Mistralなど, 最先端のオープンソースおよびクローズドソース基盤モデルを, 提案したベンチマークで評価した。
単純なナビゲーションタスクでは適切に機能するが、空間的、時間的、因果関係の深い理解を必要とするタスクに直面した場合、パフォーマンスは著しく低下する。
このように、我々のベンチマークは、自分自身を、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして区別し、最新の基礎モデルに重大な課題をもたらす。
基礎モデルを用いた具体的タスク計画のさらなる研究を刺激し、推進できることを願っている。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Zero-shot Robotic Manipulation with Language-guided Instruction and Formal Task Planning [16.89900521727246]
本稿では,言語誘導型シンボリックタスク計画(LM-SymOpt)フレームワークの最適化を提案する。
大規模言語モデルからの世界的知識と公式な推論を組み合わせた最初のエキスパートフリーな計画フレームワークです。
実験の結果,LM-SymOpt は既存の LLM ベースの計画手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-25T13:33:22Z) - Ontology-driven Prompt Tuning for LLM-based Task and Motion Planning [0.20940572815908076]
タスク・アンド・モーション・プランニング(TAMP)アプローチは、ハイレベルなシンボリック・プランと低レベルなモーション・プランニングを組み合わせたものである。
LLMは、タスクを記述するための直感的で柔軟な方法として自然言語を提供することによって、タスク計画を変える。
本研究は、知識に基づく推論を用いてユーザプロンプトを洗練・拡張する新しいプロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T13:18:45Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。
MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Model-free Motion Planning of Autonomous Agents for Complex Tasks in
Partially Observable Environments [3.7660066212240753]
部分的に知られている環境での自律エージェントの動作計画は難しい問題である。
本稿では,モデルのない強化学習手法を提案する。
提案手法は, 環境, 行動, 観測の不確実性に効果的に対処できることを示す。
論文 参考訳(メタデータ) (2023-04-30T19:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。