論文の概要: PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models
- arxiv url: http://arxiv.org/abs/2605.20873v1
- Date: Wed, 20 May 2026 08:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.564974
- Title: PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models
- Title(参考訳): PlanningBench: 大規模言語モデルの評価とトレーニングのためのスケーラブルで検証可能な計画データの生成
- Authors: Ziliang Zhao, Zenan Xu, Shuting Wang, Hongjin Qian, Yan Lei, Minda Hu, Zhao Wang, Shihan Dou, Zhicheng Dou, Pluto Zhou,
- Abstract要約: 計画は大規模言語モデル(LLM)の基本的な機能である
PlanningBenchは、評価とトレーニングの両方のためのスケーラブルで多様な検証可能な計画データを生成するためのフレームワークである。
- 参考スコア(独自算出の注目度): 52.48858778580074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning is a fundamental capability for large language models (LLMs) because such complex tasks require models to coordinate goals, constraints, resources, and long-term consequences into executable and verifiable solutions. Existing planning benchmarks, however, usually treat planning data as fixed collections of instances rather than controllable generation targets. This limits scenario coverage, ties difficulty to surface-level proxies rather than structural sources, and offers limited support for scalable generation, automatic verification, or planning-oriented training. We introduce PlanningBench, a framework for generating scalable, diverse, and verifiable planning data for both evaluation and training. PlanningBench starts from real planning scenarios and abstracts practical workflows into a structured taxonomy of more than 30 task types, subtasks, constraint families, and difficulty factors. Guided by this taxonomy, a constraint-driven synthesis pipeline instantiates self-contained planning problems with adaptive difficulty control, quality filtering, and instance-level verification checklists. This shifts planning data construction from fixed benchmark collection to controllable generation while preserving realistic task grounding. We use PlanningBench to evaluate open-source and closed-source frontier LLMs, and find that current models still struggle to produce complete solutions under coupled constraints. Beyond evaluation, reinforcement learning on verified PlanningBench data improves performance on unseen planning benchmarks and broader instruction-following tasks. Further analysis suggests that determinate or well-specified optimal solutions provide clearer reward signals and more stable training dynamics. Overall, PlanningBench provides a controllable source of planning data for diagnosing and improving generalizable planning abilities in LLMs.
- Abstract(参考訳): 計画は、大規模言語モデル(LLM)の基本的な能力である。なぜなら、そのような複雑なタスクは、目標、制約、リソース、長期的な結果を、実行可能で検証可能なソリューションに調整するモデルを必要とするからである。
しかし、既存の計画ベンチマークでは、通常、プランニングデータを制御可能な生成ターゲットではなく、固定されたインスタンスのコレクションとして扱う。
これにより、シナリオのカバレッジが制限され、構造的なソースではなく表面レベルのプロキシとの結びつきが難しくなり、スケーラブルな生成、自動検証、計画指向のトレーニングのサポートが制限される。
評価とトレーニングの両方のために、スケーラブルで多様な検証可能な計画データを生成するためのフレームワークであるPlanningBenchを紹介します。
PlanningBenchは実際の計画シナリオから始まり、実際のワークフローを30以上のタスクタイプ、サブタスク、制約家族、難易度要素からなる構造化された分類に抽象化する。
この分類法によって導かれた制約駆動型合成パイプラインは、適応的難易度制御、品質フィルタリング、インスタンスレベルの検証チェックリストを備えた自己完結型計画問題をインスタンス化する。
これにより、計画データの構築を固定されたベンチマークコレクションからコントロール可能な生成に移行し、現実的なタスクグラウンドを維持できる。
オープンソースおよびクローズドソースのフロンティアLCMの評価にはPlanningBenchを使用します。
評価以外にも、検証済みのPlanningBenchデータによる強化学習は、目に見えない計画ベンチマークとより広範な指示追従タスクのパフォーマンスを改善する。
さらなる分析により、決定的あるいは適切に特定された最適解は、より明確な報酬信号とより安定した訓練力学をもたらすことが示唆される。
全体として、PlanningBenchはLLMの汎用的な計画能力の診断と改善のための、制御可能なプランニングデータのソースを提供する。
関連論文リスト
- Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams [11.964765256346857]
不均質なマルチロボットシステムのための長期タスクプランニングは、実環境における協調チームの配置に不可欠である。
自然言語命令からタスク関連問題表現をコンパクトに生成する,スケーラブルなLLM支援フレームワークであるScale-Planを提案する。
計画に先立って無関係な情報をフィルタリングすることにより、スケールプランは効率的な分解、割り当て、長期計画生成を可能にします。
論文 参考訳(メタデータ) (2026-03-09T18:13:18Z) - TodoEvolve: Learning to Architect Agent Planning Systems [68.48983335970901]
TodoEvolveは、タスク固有の計画を自律的に合成し、動的に修正するメタプランニングパラダイムである。
PlanFactoryは異種計画パターンの共通インターフェースを提供する。
TodoEvolveは、経済的なAPIコストとランタイムオーバーヘッドを維持しながら、慎重に設計された計画モジュールを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-08T06:37:01Z) - Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study [0.0]
大規模言語モデルは、ロボットタスク計画への関心を喚起している。
これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。
本稿では,芸術言語モデルの現状の幅広いスペクトルを体系的に評価する。
論文 参考訳(メタデータ) (2025-07-31T14:25:54Z) - Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文 参考訳(メタデータ) (2025-03-12T17:40:52Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion
Planning [36.300564378022315]
本稿では,移動環境における移動操作問題を解決するための学習可能なタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを提案する。
本アルゴリズムのコアは,タスク計画,目標,初期状態を考慮したトランスフォーマーに基づく新しい学習手法であるPIGINetであり,タスク計画に関連する運動軌跡の発見確率を予測する。
論文 参考訳(メタデータ) (2022-11-03T04:12:04Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。