論文の概要: LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied
Agents
- arxiv url: http://arxiv.org/abs/2402.08178v1
- Date: Tue, 13 Feb 2024 02:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:39:44.946038
- Title: LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied
Agents
- Title(参考訳): LoTa-Bench: エージェントの言語指向タスクプランナのベンチマーク
- Authors: Jae-Woo Choi and Youngwoo Yoon and Hyobin Ong and Jaehong Kim and
Minsu Jang
- Abstract要約: 大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。
本稿では,ホームサービス実施エージェントのタスクプランニング性能を定量的に評価するベンチマークシステムを提案する。
- 参考スコア(独自算出の注目度): 2.8927500190704567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently received considerable attention as
alternative solutions for task planning. However, comparing the performance of
language-oriented task planners becomes difficult, and there exists a dearth of
detailed exploration regarding the effects of various factors such as
pre-trained model selection and prompt construction. To address this, we
propose a benchmark system for automatically quantifying performance of task
planning for home-service embodied agents. Task planners are tested on two
pairs of datasets and simulators: 1) ALFRED and AI2-THOR, 2) an extension of
Watch-And-Help and VirtualHome. Using the proposed benchmark system, we perform
extensive experiments with LLMs and prompts, and explore several enhancements
of the baseline planner. We expect that the proposed benchmark tool would
accelerate the development of language-oriented task planners.
- Abstract(参考訳): 大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。
しかし,言語指向タスクプランナの性能比較は困難となり,事前学習モデル選択や迅速な構築など,さまざまな要因がもたらす影響について,詳細な調査が行われている。
そこで本研究では,ホームサービス実施エージェントのタスクプランニング性能を自動定量化するベンチマークシステムを提案する。
タスクプランナは2組のデータセットとシミュレータでテストされます。
1)ALFREDとAI2-THOR
2) Watch-And-HelpとVirtualHomeの拡張。
提案するベンチマークシステムを用いて,LLMとプロンプトを用いた広範囲な実験を行い,ベースラインプランナの強化について検討する。
提案するベンチマークツールは,言語指向タスクプランナの開発を加速することを期待している。
関連論文リスト
- Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
古典的計画領域と自然言語シナリオの両方を含むベンチマークスイートを構築した。
第2に、LLM計画の強化にICL(In-context Learning)を用いることについて検討し、文脈長の増大と計画性能の向上の直接的な関係について検討する。
第3に、最適計画パスに対する微調整LDMの正の効果と、モデル駆動探索手法の導入の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。