論文の概要: LexiCon: a Benchmark for Planning under Temporal Constraints in Natural Language
- arxiv url: http://arxiv.org/abs/2510.05972v1
- Date: Tue, 07 Oct 2025 14:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.288788
- Title: LexiCon: a Benchmark for Planning under Temporal Constraints in Natural Language
- Title(参考訳): LexiCon: 自然言語の時間制約下での計画のためのベンチマーク
- Authors: Periklis Mantenoglou, Rishi Hazra, Pedro Zuidberg Dos Martires, Luc De Raedt,
- Abstract要約: 自然言語ベース(Lexi)制約付き(Con)計画ベンチマークであるLexiConを紹介した。
LexiConの背景にある基本的な考え方は、既存の計画環境を取り入れ、州に時間的制約を課すことだ。
GPT-5, o3, R1 などの推論モデルを含む最先端 LLM の性能は, 計画課題の制約度が増大するにつれて低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 24.878171308728145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Owing to their reasoning capabilities, large language models (LLMs) have been evaluated on planning tasks described in natural language. However, LLMs have largely been tested on planning domains without constraints. In order to deploy them in real-world settings where adherence to constraints, in particular safety constraints, is critical, we need to evaluate their performance on constrained planning tasks. We introduce LexiCon -- a natural language-based (Lexi) constrained (Con) planning benchmark, consisting of a suite of environments, that can be used to evaluate the planning capabilities of LLMs in a principled fashion. The core idea behind LexiCon is to take existing planning environments and impose temporal constraints on the states. These constrained problems are then translated into natural language and given to an LLM to solve. A key feature of LexiCon is its extensibility. That is, the set of supported environments can be extended with new (unconstrained) environment generators, for which temporal constraints are constructed automatically. This renders LexiCon future-proof: the hardness of the generated planning problems can be increased as the planning capabilities of LLMs improve. Our experiments reveal that the performance of state-of-the-art LLMs, including reasoning models like GPT-5, o3, and R1, deteriorates as the degree of constrainedness of the planning tasks increases.
- Abstract(参考訳): 推論能力のため、自然言語で記述された計画課題に対して、大規模言語モデル(LLM)が評価されている。
しかし、LSMは制約のないプランニングドメインでテストされている。
制約の遵守、特に安全性の制約が重要となる現実的な環境でそれらをデプロイするには、制約された計画タスクでそれらのパフォーマンスを評価する必要がある。
我々は,LLMの計画能力を原則的に評価するために利用可能な環境スイートからなる自然言語ベース(Lexi)制約付き(Con)計画ベンチマークであるLexiConを紹介した。
LexiConの背景にある基本的な考え方は、既存の計画環境を取り入れ、州に時間的制約を課すことだ。
これらの制約付き問題は自然言語に変換され、LLMに渡されて解かれる。
LexiConの重要な特徴は拡張性である。
すなわち、サポート対象環境のセットは、時間的制約を自動的に構築する新しい(制約のない)環境ジェネレータで拡張することができる。
LLMの計画能力が向上するにつれて、生成された計画問題の難しさが増大する可能性がある。
GPT-5, o3, R1 などの推論モデルを含む最先端 LLM の性能は, 計画課題の制約度が増大するにつれて低下することが明らかとなった。
関連論文リスト
- LogicGuard: Improving Embodied LLM agents through Temporal Logic based Critics [3.3890411643175646]
大規模言語モデル(LLM)はゼロショットと単一ステップの推論と意思決定の問題において有望であることを示している。
LogicGuardは,LLMアクターを軌跡レベルのLCM評論家に案内するモジュール型アクター・クリティックアーキテクチャである。
我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。
論文 参考訳(メタデータ) (2025-07-04T04:53:53Z) - "Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation [40.61171036032532]
大規模言語モデル(LLM)は、自然言語から計画問題への複雑な制約を組み込んだロボットナビゲーションへの関心を喚起している。
本稿では,LLMを用いて制約をPython関数に変換する制約生成フレームワークを提案する。
これらの LLM 生成関数は,複雑な数学的制約を正確に記述し,従来の探索アルゴリズムを用いたクラウド表現に応用する。
論文 参考訳(メタデータ) (2025-06-04T22:47:53Z) - LLMs Can Plan Only If We Tell Them [16.593590353705697]
大規模言語モデル (LLM) は自然言語処理や推論において重要な機能を示している。
本稿では,LLMが人間と競合する長期計画を独立に生成できるかどうかを考察する。
論文 参考訳(メタデータ) (2025-01-23T10:46:14Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Human-Centered Planning [7.7041130736703085]
AIを活用したパーソナルアシスタントを作成するというビジョンには、一日の計画や海外旅行など、構造化されたアウトプットの作成も含まれる。
ここでは、計画は人間によって実行されるので、出力は厳密な構文制約を満たす必要はない。
便利なアシスタントは、ユーザーが指定したあいまいな制約を自然言語に組み込むこともできる。
我々は LLM ベースのプランナー (LLMPlan) を開発し,その出力を自己表現できる機能と,テキスト制約を記号表現に変換する機能を備えた記号プランナー (SymPlan) を開発した。
論文 参考訳(メタデータ) (2023-11-08T00:14:05Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。