論文の概要: The 2025 Planning Performance of Frontier Large Language Models
- arxiv url: http://arxiv.org/abs/2511.09378v1
- Date: Thu, 13 Nov 2025 01:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.542289
- Title: The 2025 Planning Performance of Frontier Large Language Models
- Title(参考訳): 2025 フロンティア大言語モデルの計画性能
- Authors: Augusto B. Corrêa, André G. Pereira, Jendrik Seipp,
- Abstract要約: 本研究は,2025年現在3つのフロンティアLCMのエンド・ツー・エンド・プランニング性能に関する最新の評価である。
我々は、DeepSeek R1, Gemini 2.5 Pro, GPT-5を評価し、最新の国際計画コンペティションのラーニングトラックのサブセットにおけるプランナーLAMAを参照した。
- 参考スコア(独自算出の注目度): 6.88204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capacity of Large Language Models (LLMs) for reasoning remains an active area of research, with the capabilities of frontier models continually advancing. We provide an updated evaluation of the end-to-end planning performance of three frontier LLMs as of 2025, where models are prompted to generate a plan from PDDL domain and task descriptions. We evaluate DeepSeek R1, Gemini 2.5 Pro, GPT-5 and as reference the planner LAMA on a subset of domains from the most recent Learning Track of the International Planning Competition. Our results show that on standard PDDL domains, the performance of GPT-5 in terms of solved tasks is competitive with LAMA. When the PDDL domains and tasks are obfuscated to test for pure reasoning, the performance of all LLMs degrades, though less severely than previously reported for other models. These results show substantial improvements over prior generations of LLMs, reducing the performance gap to planners on a challenging benchmark.
- Abstract(参考訳): 推論のためのLarge Language Models (LLMs) の能力は依然として研究の活発な領域であり、フロンティアモデルの能力は継続的に進歩している。
2025年現在、3つのフロンティアLCMのエンドツーエンド計画性能を更新し、PDDLドメインとタスク記述からのプラン作成をモデルに促している。
我々は、DeepSeek R1, Gemini 2.5 Pro, GPT-5を評価し、最新の国際計画コンペティションのラーニングトラックのサブセットにおけるプランナーLAMAを参照した。
以上の結果から,標準PDDLドメインでは,問題解決作業におけるGPT-5の性能がLAMAと競合していることが示唆された。
PDDLドメインとタスクが純粋な推論のためにテストするために難読化されると、全てのLCMの性能は低下するが、他のモデルでは報告されたよりも深刻ではない。
これらの結果は,従来のLLMよりも大幅に改善され,課題のあるベンチマークにおいて,プランナのパフォーマンスギャップが小さくなった。
関連論文リスト
- PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning [19.480628850056522]
大規模言語モデル(LLM)はエージェント指向タスクの処理において顕著な進歩を見せている。
現在のアプローチは主に教師付き微調整に依存しており、しばしばモデルが確立されたタスク完了軌跡を記憶させる。
適応的グローバルプランベースエージェントパラダイムであるAdaPlanを導入する。
論文 参考訳(メタデータ) (2025-08-01T06:17:11Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs [11.998185452551878]
大規模言語モデル(LLM)は、コード生成とチェーン・オブ・シークレット推論に習熟している。
本研究では,計画ドメイン定義言語(PDDL)の理解と生成のためのLLMの可能性を評価する。
論文 参考訳(メタデータ) (2025-02-27T15:13:07Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Robust Planning with LLM-Modulo Framework: Case Study in Travel Planning [19.79128776490271]
本稿では,大規模言語モデルの多種多様な計画・推論活動への統合を促進する枠組みを提案する。
我々は,OSU NLPグループによる旅行計画ベンチマークを用いて,有効な旅程作成におけるLLMの性能評価を行う。
LLM-Modulo framework for TravelPlanning Domainの運用により、GPT4-Turboの4.6倍、GPT3.5-Turboのような古いモデルでは0%から5%のベースライン性能が向上した。
論文 参考訳(メタデータ) (2024-05-31T05:23:35Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - Leveraging Pre-trained Large Language Models to Construct and Utilize
World Models for Model-based Task Planning [39.29964085305846]
事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。
本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。