論文の概要: PLANET: A Collection of Benchmarks for Evaluating LLMs' Planning Capabilities
- arxiv url: http://arxiv.org/abs/2504.14773v1
- Date: Mon, 21 Apr 2025 00:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:10:45.998515
- Title: PLANET: A Collection of Benchmarks for Evaluating LLMs' Planning Capabilities
- Title(参考訳): PLANET: LLMの計画能力を評価するベンチマークのコレクション
- Authors: Haoming Li, Zhaoliang Chen, Jonathan Zhang, Fei Liu,
- Abstract要約: 計画はエージェントとエージェントAIの中心である。
これまでのところ、既存の計画ベンチマークに対する包括的な理解は欠如しているようだ。
本稿では,アルゴリズム開発によく使用されるテストベッドを特定するための,様々な計画ベンチマークについて検討する。
- 参考スコア(独自算出の注目度): 7.36760703426119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning is central to agents and agentic AI. The ability to plan, e.g., creating travel itineraries within a budget, holds immense potential in both scientific and commercial contexts. Moreover, optimal plans tend to require fewer resources compared to ad-hoc methods. To date, a comprehensive understanding of existing planning benchmarks appears to be lacking. Without it, comparing planning algorithms' performance across domains or selecting suitable algorithms for new scenarios remains challenging. In this paper, we examine a range of planning benchmarks to identify commonly used testbeds for algorithm development and highlight potential gaps. These benchmarks are categorized into embodied environments, web navigation, scheduling, games and puzzles, and everyday task automation. Our study recommends the most appropriate benchmarks for various algorithms and offers insights to guide future benchmark development.
- Abstract(参考訳): 計画はエージェントとエージェントAIの中心である。
例えば、予算内で旅行の旅程を作成できる能力は、科学的・商業的な文脈において大きな可能性を秘めている。
さらに、最適な計画はアドホック法よりも少ないリソースを必要とする傾向にある。
これまでのところ、既存の計画ベンチマークに対する包括的な理解は欠如しているようだ。
それなしでは、ドメイン間での計画アルゴリズムのパフォーマンスの比較や、新しいシナリオに適したアルゴリズムの選択は難しいままである。
本稿では,アルゴリズム開発によく使用されるテストベッドを同定し,潜在的なギャップを明らかにするための,様々な計画ベンチマークについて検討する。
これらのベンチマークは、具体化された環境、Webナビゲーション、スケジューリング、ゲームとパズル、日々のタスク自動化に分類される。
本研究は,様々なアルゴリズムに最適なベンチマークを推奨し,将来のベンチマーク開発を導くための洞察を提供する。
関連論文リスト
- Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文 参考訳(メタデータ) (2024-07-31T09:50:22Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - A Planning Ontology to Represent and Exploit Planning Knowledge for Performance Efficiency [6.87593454486392]
我々は,エージェントを世界の初期状態から望ましい目標状態へ移動させる一連の行動を見つけることを目的として,自動計画の問題を考える。
利用可能なプランナと多様なプランナドメインが多数用意されていると仮定し、適切なプランナを特定し、ドメインのパフォーマンスを向上させるために活用できる不可欠な情報を持っている。
論文 参考訳(メタデータ) (2023-07-25T14:51:07Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z) - Adversarial Plannning [8.930624061602046]
計画アルゴリズムは、自律的な振舞いを指示するために計算システムで使用される。
このようなアルゴリズムが、プランナーを阻止しようとする敵に対してどのように機能するかは不明だ。
論文 参考訳(メタデータ) (2022-05-01T21:43:06Z) - Representation, learning, and planning algorithms for geometric task and
motion planning [24.862289058632186]
幾何学的課題と運動計画(GTAMP)を導くための学習フレームワークを提案する。
GTAMPはタスクと動作計画のサブクラスであり、複数の物体を可動障害物内の対象領域に移動させることが目的である。
GTAMP問題には、ハイブリッド検索空間と高価なアクション実現可能性チェックが含まれるため、標準グラフ探索アルゴリズムは直接適用されない。
論文 参考訳(メタデータ) (2022-03-09T09:47:01Z) - Systematic Comparison of Path Planning Algorithms using PathBench [55.335463666037086]
パスプランニングはモバイルロボティクスの重要な構成要素である。
学習に基づく経路計画アルゴリズムの開発は、急速な成長を遂げている。
本稿では,パスプランニングアルゴリズムの開発,視覚化,トレーニング,テスト,ベンチマークを行うプラットフォームであるPathBenchについて述べる。
論文 参考訳(メタデータ) (2022-03-07T01:52:57Z) - Learning off-road maneuver plans for autonomous vehicles [0.0]
この論文では、オフロード環境での自動運転車のオンライン計画とスケジューリングに機械学習アルゴリズムがもたらすメリットを探求する。
異なる計画立案者を支援するための学習ベースを提示する。
同期操作を実行するための戦略を合成するために,新しいタイプのスケジューリング制御性と学習支援アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-02T16:27:59Z) - PathBench: A Benchmarking Platform for Classical and Learned Path
Planning Algorithms [59.3879573040863]
パスプランニングは、モバイルロボティクスの重要なコンポーネントです。
アルゴリズムを全体的あるいは統一的にベンチマークする試みはほとんど行われていない。
本稿では,パスプランニングアルゴリズムの開発,視覚化,トレーニング,テスト,ベンチマークを行うプラットフォームであるPathBenchについて述べる。
論文 参考訳(メタデータ) (2021-05-04T21:48:18Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。