論文の概要: Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents
- arxiv url: http://arxiv.org/abs/2506.04649v1
- Date: Thu, 05 Jun 2025 05:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.552434
- Title: Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents
- Title(参考訳): Flex-TravelPlanner: 言語エージェントによるフレキシブルプランニングのためのベンチマーク
- Authors: Juhyun Oh, Eunsu Kim, Alice Oh,
- Abstract要約: Flex-TravelPlannerは動的計画シナリオで柔軟に推論できる言語モデルの能力を評価するベンチマークです。
GPT-4o と Llama 3.1 70B を解析したところ,いくつかの重要な所見が得られた。
- 参考スコア(独自算出の注目度): 16.295418365993033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world planning problems require constant adaptation to changing requirements and balancing of competing constraints. However, current benchmarks for evaluating LLMs' planning capabilities primarily focus on static, single-turn scenarios. We introduce Flex-TravelPlanner, a benchmark that evaluates language models' ability to reason flexibly in dynamic planning scenarios. Building on the TravelPlanner dataset~\citep{xie2024travelplanner}, we introduce two novel evaluation settings: (1) sequential constraint introduction across multiple turns, and (2) scenarios with explicitly prioritized competing constraints. Our analysis of GPT-4o and Llama 3.1 70B reveals several key findings: models' performance on single-turn tasks poorly predicts their ability to adapt plans across multiple turns; constraint introduction order significantly affects performance; and models struggle with constraint prioritization, often incorrectly favoring newly introduced lower priority preferences over existing higher-priority constraints. These findings highlight the importance of evaluating LLMs in more realistic, dynamic planning scenarios and suggest specific directions for improving model performance on complex planning tasks. The code and dataset for our framework are publicly available at https://github.com/juhyunohh/FlexTravelBench.
- Abstract(参考訳): 現実の計画問題は、要求の変更と競合する制約のバランスに常に適応する必要がある。
しかしながら、LLMの計画能力を評価するための現在のベンチマークは、主に静的なシングルターンシナリオに焦点を当てている。
Flex-TravelPlannerは動的計画シナリオで柔軟に推論できる言語モデルの能力を評価するベンチマークです。
TravelPlanner データセット~\citep{xie2024travelplanner} に基づいて,(1) 複数回にわたる逐次的制約導入,(2) 明示的に優先順位付けされた競合制約を伴うシナリオの2つの新しい評価設定を導入する。
GPT-4o と Llama 3.1 70B を解析した結果,単一ターンタスクにおけるモデルの性能は,複数のターンにまたがる計画の適応能力の低下を予測できないこと,制約導入順序が性能に大きく影響すること,制約優先化に苦慮するモデルなどが明らかになった。
これらの知見は、より現実的で動的な計画シナリオにおけるLCMの評価の重要性を強調し、複雑な計画タスクにおけるモデル性能を改善するための具体的な方向性を提案する。
私たちのフレームワークのコードとデータセットはhttps://github.com/juhyunohh/FlexTravelBench.comで公開されています。
関連論文リスト
- Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-13T15:49:56Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - Can Vehicle Motion Planning Generalize to Realistic Long-tail Scenarios? [11.917542484123134]
現実の自動運転システムは、稀で多様な交通シナリオに直面して安全な判断をしなければならない。
現在の最先端のプランナーは、主にnuScenes(オープンループ)やnuPlan(クローズループ)といった現実世界のデータセットで評価されます。
論文 参考訳(メタデータ) (2024-04-11T08:57:48Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion
Planning [36.300564378022315]
本稿では,移動環境における移動操作問題を解決するための学習可能なタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを提案する。
本アルゴリズムのコアは,タスク計画,目標,初期状態を考慮したトランスフォーマーに基づく新しい学習手法であるPIGINetであり,タスク計画に関連する運動軌跡の発見確率を予測する。
論文 参考訳(メタデータ) (2022-11-03T04:12:04Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。