論文の概要: Language Model as Planner and Formalizer under Constraints
- arxiv url: http://arxiv.org/abs/2510.05486v1
- Date: Tue, 07 Oct 2025 01:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.046077
- Title: Language Model as Planner and Formalizer under Constraints
- Title(参考訳): 制約下におけるプランナー・フォーマライザとしての言語モデル
- Authors: Cassie Huang, Stuti Mohan, Ziyi Yang, Stefanie Tellex, Li Zhang,
- Abstract要約: 手動で注釈付き、きめ細かい、そして4つのカテゴリにまたがるリッチな自然言語制約で、広く使われている計画ベンチマークを拡張して、ギャップを埋める。
4以上の最先端の推論LSM、3つの形式言語、5つのメソッド、4つのデータセットにおいて、制約の導入は、パフォーマンスを一貫して上回るだけでなく、問題の複雑さと語彙シフトに対する大きな課題も示している。
- 参考スコア(独自算出の注目度): 26.589640277191677
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs have been widely used in planning, either as planners to generate action sequences end-to-end, or as formalizers to represent the planning domain and problem in a formal language that can derive plans deterministically. However, both lines of work rely on standard benchmarks that only include generic and simplistic environmental specifications, leading to potential overestimation of the planning ability of LLMs and safety concerns in downstream tasks. We bridge this gap by augmenting widely used planning benchmarks with manually annotated, fine-grained, and rich natural language constraints spanning four formally defined categories. Over 4 state-of-the-art reasoning LLMs, 3 formal languages, 5 methods, and 4 datasets, we show that the introduction of constraints not only consistently halves performance, but also significantly challenges robustness to problem complexity and lexical shift.
- Abstract(参考訳): LLMは、プランナーがエンドツーエンドのアクションシーケンスを生成するために、あるいは計画領域と問題を決定論的に導出できる形式言語で表現するためのフォーミュラとして、計画に広く使われてきた。
しかしながら、両方の作業の行は、汎用的で単純化された環境仕様のみを含む標準ベンチマークに依存しており、LLMの計画能力と下流タスクにおける安全上の懸念を過大評価する可能性がある。
このギャップを、手動で注釈付き、きめ細かい、そして4つの正式に定義されたカテゴリにまたがるリッチな自然言語制約で、広く使われている計画ベンチマークを強化することで埋める。
4以上の最先端の推論LSM、3つの形式言語、5つのメソッド、4つのデータセットにおいて、制約の導入は、パフォーマンスを一貫して改善するだけでなく、問題複雑性や語彙シフトに対する堅牢性にも大きな課題があることが示されている。
関連論文リスト
- LexiCon: a Benchmark for Planning under Temporal Constraints in Natural Language [24.878171308728145]
自然言語ベース(Lexi)制約付き(Con)計画ベンチマークであるLexiConを紹介した。
LexiConの背景にある基本的な考え方は、既存の計画環境を取り入れ、州に時間的制約を課すことだ。
GPT-5, o3, R1 などの推論モデルを含む最先端 LLM の性能は, 計画課題の制約度が増大するにつれて低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-07T14:28:30Z) - On the Limit of Language Models as Planning Formalizers [4.145422873316857]
大規模言語モデルは、地上環境では実行不可能で検証不可能な計画を作成することが発見されている。
新たな作業のラインは、LLMをフォーマライザとして使用して、ある言語で計画領域を形式的に表現することに成功したことを示している。
この形式的表現は、計画を見つけるために決定論的に解決できる。
論文 参考訳(メタデータ) (2024-12-13T05:50:22Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Conformal Temporal Logic Planning using Large Language Models [26.793426646439073]
我々は、自然言語(NL)で表される複数のハイレベルなサブタスクを、時間的・論理的な順序で達成する必要があるとみなす。
私たちの目標は、ロボットアクションのシーケンスとして定義された計画を立てることです。
我々は,既存の象徴的プランナーの新たな統合に依存した階層型ニューロシンボリックプランナーであるHERACLEsを提案する。
論文 参考訳(メタデータ) (2023-09-18T19:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。