論文の概要: Large Language Models Can Plan Your Travels Rigorously with Formal Verification Tools
- arxiv url: http://arxiv.org/abs/2404.11891v1
- Date: Thu, 18 Apr 2024 04:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:11:02.788512
- Title: Large Language Models Can Plan Your Travels Rigorously with Formal Verification Tools
- Title(参考訳): 大規模言語モデルでは、形式検証ツールで旅行を厳格に計画できる
- Authors: Yilun Hao, Yongchao Chen, Yang Zhang, Chuchu Fan,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な最適化問題を正確に解くことができない。
本研究では, LLM を満足度変調理論 (SMT) 問題として, 旅行計画問題の定式化と解決を可能にする枠組みを提案する。
我々のフレームワークは、データセットの平均成功率は78.6%、TravelPlannerは85.0%の有効なプランを生成することができる。
- 参考スコア(独自算出の注目度): 12.875270710153021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements of Large Language Models (LLMs), with their abundant world knowledge and capabilities of tool-using and reasoning, fostered many LLM planning algorithms. However, LLMs have not shown to be able to accurately solve complex combinatorial optimization problems. In Xie et al. (2024), the authors proposed TravelPlanner, a U.S. domestic travel planning benchmark, and showed that LLMs themselves cannot make travel plans that satisfy user requirements with a best success rate of 0.6%. In this work, we propose a framework that enables LLMs to formally formulate and solve the travel planning problem as a satisfiability modulo theory (SMT) problem and use SMT solvers interactively and automatically solve the combinatorial search problem. The SMT solvers guarantee the satisfiable of input constraints and the LLMs can enable a language-based interaction with our framework. When the input constraints cannot be satisfiable, our LLM-based framework will interactively offer suggestions to users to modify their travel requirements via automatic reasoning using the SMT solvers. We evaluate our framework with TravelPlanner and achieve a success rate of 97%. We also create a separate dataset that contain international travel benchmarks and use both dataset to evaluate the effectiveness of our interactive planning framework when the initial user queries cannot be satisfied. Our framework could generate valid plans with an average success rate of 78.6% for our dataset and 85.0% for TravelPlanner according to diverse humans preferences.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は、豊富な世界知識とツールの使用と推論能力によって、多くのLLM計画アルゴリズムを育成した。
しかし、LLMは複雑な組合せ最適化問題を正確に解くことができない。
Xie et al (2024) において、著者らは米国国内旅行計画ベンチマークであるTravelPlannerを提案し、LSM自体がユーザー要求を満たす旅行計画を作成することができないことを示した。
本研究では,LSMをSMT問題として形式的に定式化し,旅行計画問題の解決を可能にするフレームワークを提案し,SMTソルバを対話的に使用し,組合せ探索問題を自動解決する。
SMTソルバは入力制約を満たすことを保証し、LLMは我々のフレームワークとの言語ベースの対話を可能にする。
入力制約が満足できない場合、私たちのLLMベースのフレームワークは、SMTソルバを用いた自動推論により、ユーザに対して、旅行要求を変更するための提案を対話的に提供します。
当社のフレームワークをTravelPlannerで評価し,97%の成功率を達成した。
また、国際旅行ベンチマークを含む別のデータセットを作成し、両方のデータセットを使用して、初期ユーザクエリが満足できない場合に、インタラクティブな計画フレームワークの有効性を評価する。
我々のフレームワークは、データセットの平均成功率は78.6%、TravelPlannerは85.0%の有効なプランを生成することができる。
関連論文リスト
- Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - NATURAL PLAN: Benchmarking LLMs on Natural Language Planning [109.73382347588417]
本稿では,3つのタスク – トリップ計画,ミーティング計画,カレンダースケジューリング – を含む,自然言語の現実的な計画ベンチマークであるNATURAL PLANを紹介する。
我々は、Google Flights、Google Maps、Google Calendarなどのツールからの出力を、モデルに対するコンテキストとして提供することによって、タスクに関する完全な情報を備えたLCMの計画能力に焦点をあてる。
論文 参考訳(メタデータ) (2024-06-06T21:27:35Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Understanding the Capabilities of Large Language Models for Automated
Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。
この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-25T15:21:09Z) - AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With
Large Language Models [11.895111124804503]
AutoPlanは、LCMベースのエージェントをガイドして、対話的な意思決定タスクを実現するアプローチである。
実験の結果,AutoPlanはベースラインと同等の成功率を達成した。
論文 参考訳(メタデータ) (2023-05-24T11:52:23Z) - Plansformer: Generating Symbolic Plans using Transformers [24.375997526106246]
大規模言語モデル(LLM)は、自然言語処理(NLP)分野を著しく進歩させ、活発な研究対象となっている。
プランフォーマーは計画上の問題に微調整され、知識工学の努力を減らし、正確さと長さの点で良好な行動で計画を生成することができる。
Plansformerの1つの構成では、97%の有効なプランが達成されます。
論文 参考訳(メタデータ) (2022-12-16T19:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。