論文の概要: Robust Asynchronous Planning via Auto-Formalization
- arxiv url: http://arxiv.org/abs/2606.00981v1
- Date: Sun, 31 May 2026 03:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.012065
- Title: Robust Asynchronous Planning via Auto-Formalization
- Title(参考訳): 自動形式化によるロバスト非同期計画
- Authors: Jiayi Zhang, Jianing Yin, Ben Zhou, Li Zhang,
- Abstract要約: LLMは、Plannerとしてアクションシーケンスを直接生成するか、外部ソルバをFormalizerとしてドメイン固有言語に変換することで計画できる。
これらの課題を1つの定式化の下で統一し、それぞれに対処する最初の3つのベンチマークを導入します。
フォーマルな表現の選択は、主に計画スケールを決定する。
- 参考スコア(独自算出の注目度): 18.999996458563373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs can plan by either generating action sequences directly as a Planner or translating tasks into domain specific language for an external solver as a Formalizer. While most real-world tasks are asynchronous with non-uniform durations, concurrency, and execution-time constraints, existing benchmarks hardly cover them. We unify these asynchronous planning challenges under a single formulation and introduce the first three benchmarks that address each at scale. We conclude that the choice of formal representation primarily determines whether planning scales: as dependency graphs grow from 5 to 100 actions, Planner collapses from 96% to 5% plan accuracy and PDDL2.1 Formalizer from 13% to 0%, while CP-SAT Formalizer averages 94% and still achieves 83% at 100 actions. Faithfulness diagnostics show that PDDL2.1's predicate-based planning representation becomes brittle compared to general constraint satisfaction programs, when LLMs must keep predicates, effects, and goals consistent. Execution-time updates of planning constraints further degrade performance sharply (Planner 23.9%, PDDL2.1 0.7%, CP-SAT 46.1%), but a state-aware repair strategy that updates only event-induced constraints recovers CP-SAT Formalizer to 84.5%.
- Abstract(参考訳): LLMは、Plannerとしてアクションシーケンスを直接生成するか、外部ソルバをFormalizerとしてドメイン固有言語に変換することで計画できる。
ほとんどの実世界のタスクは、一様でない時間、並行性、実行時の制約と非同期であるが、既存のベンチマークはほとんどカバーしていない。
これらの非同期計画課題を1つの定式化の下で統一し、それぞれに対処する最初の3つのベンチマークを導入します。
依存グラフが5から100のアクションに増加するにつれて、プランナーは96%から5%のプラン精度に崩壊し、PDDL2.1のフォーミュラライザは13%から0%に、CP-SATのフォーミュラライザは94%、それでも100のアクションで83%となる。
信頼度診断は、PDDL2.1の述語に基づく計画表現が、LCMが述語、効果、目標を一貫して維持しなければならない場合、一般的な制約満足度プログラムと比較して不安定になることを示している。
Planner 23.9%、PDDL2.1 0.7%、CP-SAT 46.1%) だが、イベントによって引き起こされる制約のみを更新する状態対応の修復戦略により、CP-SAT Formalizerは84.5%に回復した。
関連論文リスト
- PlanCompiler: A Deterministic Compilation Architecture for Structured Multi-Step LLM Pipelines [0.0]
PlanCompilerは、構造化パイプライン用のコンパイルアーキテクチャで、タイプされたノードレジストリレジストリによる実行からプランニングを分離する。
PlanCompilerはプリミティブの固定レジストリ上で型付きプランを生成し、そのプランを明示的な構造的制約と型制約に対して検証し、検証済みプランのみを実行可能なPythonにコンパイルする。
論文 参考訳(メタデータ) (2026-04-08T00:54:41Z) - GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models [4.400420377775205]
我々は,大規模言語モデル(LLM)を利用してドメイン依存の汎用プランナを生成する新しいフレームワークであるGenePlanを提案する。
GenePlanは、さまざまな問題インスタンスにおけるプラン長を最小限に抑える解釈可能なPythonプランナを反復的に進化させる。
実証的な評価では、GenePlanは平均SATスコア0.91を達成し、最先端のプランナーの性能と密接に一致した。
論文 参考訳(メタデータ) (2026-03-10T10:32:05Z) - Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation [1.2832858109291982]
大型言語モデル(LLM)は、古典的なシンボリックな手法と共に実行可能なプランナーとして機能する。
本稿では,オープンソースの計画ドメイン定義言語(PDDL)シミュレーションエンジンであるPyPDDLEngineを紹介する。
102国際計画コンペティション(IPC)Blocksworldインスタンスに対して,一様180秒の予算で4つのアプローチを評価する。
論文 参考訳(メタデータ) (2026-03-06T09:16:49Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - NATURAL PLAN: Benchmarking LLMs on Natural Language Planning [109.73382347588417]
本稿では,3つのタスク – トリップ計画,ミーティング計画,カレンダースケジューリング – を含む,自然言語の現実的な計画ベンチマークであるNATURAL PLANを紹介する。
我々は、Google Flights、Google Maps、Google Calendarなどのツールからの出力を、モデルに対するコンテキストとして提供することによって、タスクに関する完全な情報を備えたLCMの計画能力に焦点をあてる。
論文 参考訳(メタデータ) (2024-06-06T21:27:35Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z) - A feasibility study of a hyperparameter tuning approach to automated
inverse planning in radiotherapy [68.8204255655161]
本研究の目的は,計画品質を保ちながら,逆計画プロセスを自動化し,積極的な計画時間を短縮することである。
本研究では, 線量パラメータの選択, ランダムおよびベイズ探索法, ユーティリティ関数形式が計画時間と計画品質に及ぼす影響について検討した。
100個のサンプルを用いて良好な計画品質が得られ、平均計画時間は2.3時間であった。
論文 参考訳(メタデータ) (2021-05-14T18:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。