Fugu-MT 論文翻訳(概要): Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools

論文の概要: Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools

arxiv url: http://arxiv.org/abs/2404.11891v2
Date: Tue, 15 Oct 2024 23:18:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.922982
Title: Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools
Title（参考訳）: 大規模言語モデルでは,形式検証ツールで実世界の計画を厳格に解決できる
Authors: Yilun Hao, Yongchao Chen, Yang Zhang, Chuchu Fan,
Abstract要約: 大規模言語モデル(LLM)は、複雑なマルチ制約計画問題に対して、直接的に正しい計画を生成するのに苦慮している。制約付き満足度問題として複雑なマルチ制約計画問題を定式化し,解決する LLM ベースの計画フレームワークを提案する。我々のフレームワークは、2つのデータセットから、平均81.6%と91.7%の満足できないクエリを修正および解決できることを示します。
参考スコア（独自算出の注目度）: 12.875270710153021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite their recent advancements, Large Language Models (LLMs) still struggle to directly generate correct plans for complex multi-constraint planning problems, even with self-verification and self-critique. For example, a U.S. domestic travel planning benchmark TravelPlanner was proposed in Xie et al. (2024), where the best LLM OpenAI o1-preview can only find travel plans that satisfy user requirements with a 10% success rate given all needed information. In this work, we tackle this difficult problem by proposing an LLM-based planning framework that formalizes and solves complex multi-constraint planning problems as constrained satisfiability problems, which are further consumed by sound and complete satisfiability solvers. We start with TravelPlanner as the primary use case and achieve a success rate of 93.9%. We demonstrate our framework's robustness by showing its effectiveness in diverse paraphrased prompts. More importantly, our framework has strong zero-shot generalizability: It can successfully handle unseen constraints in a completely unseen international travel dataset we created, and it can even generalize well to new domains such as routing and task allocation problems in a zero-shot manner. Moreover, when user input queries are infeasible, our framework can identify the unsatisfiable core, provide failure reasons, and offers personalized modification suggestions to users according to diverse human preferences. We show that our framework can modify and solve for an average of 81.6% and 91.7% unsatisfiable queries from two datasets and prove with ablations that all key components of our framework are effective and necessary.
Abstract（参考訳）: 最近の進歩にもかかわらず、Large Language Models (LLMs) は、自己検証や自己批判でさえも、複雑なマルチ制約計画問題の正しい計画を生成するのに苦慮している。例えば、米国国内旅行計画ベンチマークTravelPlannerがXie et al (2024)で提案され、最高のLLM OpenAI o1-previewは、すべての必要な情報から10%の成功率でユーザー要求を満たす旅行計画を見つけることができる。本研究では,LLMをベースとした複雑な多制約計画問題の定式化と解決を,音と完全満足度問題によってさらに消費される制約付き満足度問題として提案することで,この問題に対処する。主要なユースケースはTravelPlannerから始まり、93.9%の成功率を達成した。多様な言い換えのプロンプトでその有効性を示すことによって,フレームワークの堅牢性を実証する。さらに重要なことは、当社のフレームワークは、ゼロショットの強い一般化性を持っています。これは、私たちが作成した完全に見えない国際旅行データセットにおいて、目に見えない制約をうまく処理することができ、ゼロショットの方法でルーティングやタスク割り当て問題といった新しいドメインにうまく一般化することができます。さらに、ユーザ入力クエリが実現不可能な場合、我々のフレームワークは、不満足なコアを識別し、失敗理由を提供し、多様な人間の好みに応じてユーザーに対してパーソナライズされた修正提案を提供する。我々のフレームワークは、2つのデータセットからの満足できないクエリを平均81.6%と91.7%で修正し、解決できることを示し、我々のフレームワークのすべての主要なコンポーネントが効果的で必要であることを示す。

関連論文リスト

MPCC: A Novel Benchmark for Multimodal Planning with Complex Constraints in Multimodal Large Language Models [42.30936364450115]
マルチモーダル計画能力は、マルチモーダルコンテキストによるタスク実行の予測、推論、設計のステップを指す。現在のベンチマークでは,(1)マルチモーダルな実世界の計画能力を直接評価できないこと,(2)モダリティ間の制約や暗黙の制約が欠けていること,の2つの課題に直面している。本稿では,MLLMのマルチモーダル制約処理能力を体系的に評価する最初のベンチマークであるMPCC(Multimodal Planning with Complex Constraints)を紹介する。
論文参考訳（メタデータ） (2025-07-31T09:59:17Z)
PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文参考訳（メタデータ） (2025-07-10T07:30:44Z)
Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM [58.50687282180444]
旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
論文参考訳（メタデータ） (2025-06-14T09:37:59Z)
Collaborative LLM Inference via Planning for Efficient Reasoning [50.04696654679751]
本稿では,プランナーモデルがまず,その問題の蒸留および高レベルの抽象化として定義されたプランを生成するテストタイム協調フレームワークを提案する。小型と大型のモデルは、プランナーと理性士として交代で働き、複雑なタスクを協調的に解決するために、多ラウンドのカスケードでプランを交換する。提案手法は,強力なプロプライエタリモデルに匹敵する精度を実現し,有償推論への依存を著しく低減する。
論文参考訳（メタデータ） (2025-06-13T08:35:50Z)
Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents [16.295418365993033]
Flex-TravelPlannerは動的計画シナリオで柔軟に推論できる言語モデルの能力を評価するベンチマークです。 GPT-4o と Llama 3.1 70B を解析したところ,いくつかの重要な所見が得られた。
論文参考訳（メタデータ） (2025-06-05T05:31:50Z)
ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning [50.7898120693695]
ChinaTravelは、中国の旅行計画シナリオに特化して設計されたベンチマークである。質問紙から旅行要求を収集し,構成的に一般化可能なドメイン特化言語を提案する。実証研究により、旅行計画における神経象徴薬の可能性を明らかにし、27.9%の制約満足度を達成した。我々は、オープン言語推論や未確認概念構成など、現実世界の旅行計画展開における重要な課題を特定します。
論文参考訳（メタデータ） (2024-12-18T10:10:12Z)
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。 EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文参考訳（メタデータ） (2024-12-05T18:57:23Z)
Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文参考訳（メタデータ） (2024-10-19T17:27:38Z)
Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。 LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。 GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLpreviewが平均83.7%,86.8%の最適率で達成できることを実証した。
論文参考訳（メタデータ） (2024-10-15T23:20:54Z)
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文参考訳（メタデータ） (2024-09-30T03:58:43Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
Multi-agent Planning using Visual Language Models [2.2369578015657954]
大規模言語モデル(LLM)とビジュアル言語モデル(VLM)は、様々なドメインやタスクにわたるパフォーマンスとアプリケーションの改善により、関心を集めている。 LLMとVLMは、特に問題領域の深い理解が必要な場合、誤った結果をもたらす。本稿では,特定のデータ構造を入力として必要とせずに動作可能なマルチエージェント型タスクプランニングアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-08-10T08:10:17Z)
TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。 LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文参考訳（メタデータ） (2024-06-14T17:31:16Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文参考訳（メタデータ） (2024-02-02T18:39:51Z)
LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文参考訳（メタデータ） (2023-12-30T02:53:45Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文参考訳（メタデータ） (2023-05-26T05:52:27Z)
A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文参考訳（メタデータ） (2023-03-01T11:54:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。