論文の概要: Bridging LLM Planning Agents and Formal Methods: A Case Study in Plan Verification
- arxiv url: http://arxiv.org/abs/2510.03469v1
- Date: Fri, 03 Oct 2025 19:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.058957
- Title: Bridging LLM Planning Agents and Formal Methods: A Case Study in Plan Verification
- Title(参考訳): ブリッジ型LCM計画エージェントと形式的手法:計画検証を事例として
- Authors: Keshav Ramani, Vali Tawosi, Salwa Alamir, Daniel Borrajo,
- Abstract要約: 我々は、自然言語計画と予測行動の整合性を評価するための新しい枠組みを、クリプキ構造と線形時間論理(LTL)に変換することによって導入する。
このフレームワークをPlanBench計画検証データセットの簡易バージョンで体系的に評価し、精度、精度、リコール、F1スコアなどの指標について報告する。
- 参考スコア(独自算出の注目度): 5.177308274872149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel framework for evaluating the alignment between natural language plans and their expected behavior by converting them into Kripke structures and Linear Temporal Logic (LTL) using Large Language Models (LLMs) and performing model checking. We systematically evaluate this framework on a simplified version of the PlanBench plan verification dataset and report on metrics like Accuracy, Precision, Recall and F1 scores. Our experiments demonstrate that GPT-5 achieves excellent classification performance (F1 score of 96.3%) while almost always producing syntactically perfect formal representations that can act as guarantees. However, the synthesis of semantically perfect formal models remains an area for future exploration.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いたKripke構造とLTL(Linear Temporal Logic)に変換することで,自然言語計画と期待される動作の整合性を評価する新しいフレームワークを提案する。
このフレームワークをPlanBench計画検証データセットの簡易バージョンで体系的に評価し、精度、精度、リコール、F1スコアなどの指標について報告する。
実験の結果, GPT-5は優れた分類性能(F1スコア96.3%)を達成でき, ほぼ常に構文的に完璧な形式表現を生成でき, 保証として振る舞うことができた。
しかし、意味論的に完全な形式モデルの合成は、将来の探索の領域として残されている。
関連論文リスト
- Towards Locally Deployable Fine-Tuned Causal Large Language Models for Mode Choice Behaviour [4.378407481656902]
本研究では,移動モード選択予測のためのオープンアクセス型ローカル展開型因果大言語モデル (LLM) の導入について検討した。
提案した3つの選好データセットに対して11のLCMをベンチマークし,396の設定をテストし,79,000以上の合成通勤予測を生成した。
LiTransMCはパラメータ効率と損失マスキング戦略で微調整され、重み付きF1スコアは0.6845、ジェンセン=シャノンディバージェンスは0.000245に達した。
論文 参考訳(メタデータ) (2025-07-29T02:03:37Z) - Large Language Models for Planning: A Comprehensive and Systematic Survey [29.168219253281453]
大規模言語モデル(LLM)は、特定の計画タスクにおいて顕著なパフォーマンスを示している。
本稿では,LLMをベースとした計画の総合的なレビューを行う。
論文 参考訳(メタデータ) (2025-05-26T08:44:53Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。