論文の概要: COMPASS: A Multi-Turn Benchmark for Tool-Mediated Planning & Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.07043v1
- Date: Wed, 08 Oct 2025 14:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.541109
- Title: COMPASS: A Multi-Turn Benchmark for Tool-Mediated Planning & Preference Optimization
- Title(参考訳): CompASS: ツール媒介型プランニングと優先度最適化のためのマルチTurnベンチマーク
- Authors: Tian Qin, Felix Bai, Ting-Yao Hu, Raviteja Vemulapalli, Hema Swetha Koppula, Zhiyang Xu, Bowen Jin, Mert Cemri, Jiarui Lu, Zirui Wang, Meng Cao,
- Abstract要約: 本稿では,現実的な旅行計画シナリオにおけるエージェントの評価を行うベンチマークを提案する。
我々は、20の国立公園の交通、宿泊、チケット販売を網羅する現実的な旅行データベースを構築している。
i) エージェントが制約を確実に満たすが、選好を最適化できない、(ii) 計画調整のギャップ、(ii) マルチサービス(フライトとホテル)の調整タスクのパフォーマンスが崩壊する、という2つの重要なギャップを明らかにする。
- 参考スコア(独自算出の注目度): 47.26757420020116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world large language model (LLM) agents must master strategic tool use and user preference optimization through multi-turn interactions to assist users with complex planning tasks. We introduce COMPASS (Constrained Optimization through Multi-turn Planning and Strategic Solutions), a benchmark that evaluates agents on realistic travel-planning scenarios. We cast travel planning as a constrained preference optimization problem, where agents must satisfy hard constraints while simultaneously optimizing soft user preferences. To support this, we build a realistic travel database covering transportation, accommodation, and ticketing for 20 U.S. National Parks, along with a comprehensive tool ecosystem that mirrors commercial booking platforms. Evaluating state-of-the-art models, we uncover two critical gaps: (i) an acceptable-optimal gap, where agents reliably meet constraints but fail to optimize preferences, and (ii) a plan-coordination gap, where performance collapses on multi-service (flight and hotel) coordination tasks, especially for open-source models. By grounding reasoning and planning in a practical, user-facing domain, COMPASS provides a benchmark that directly measures an agent's ability to optimize user preferences in realistic tasks, bridging theoretical advances with real-world impact.
- Abstract(参考訳): 実世界の大規模言語モデル(LLM)エージェントは、複雑な計画タスクをユーザを支援するために、マルチターンインタラクションを通じて戦略ツールの使用とユーザ好みの最適化をマスターする必要がある。
現実的な旅行計画シナリオにおいてエージェントを評価するベンチマークであるCompASS(Constrained Optimization through Multi-turn Planning and Strategic Solutions)を紹介する。
エージェントはソフトなユーザの好みを同時に最適化しながら、厳しい制約を満たさなければならない。
これをサポートするために、我々は、20の国立公園の交通、宿泊、チケットの現実的な旅行データベースを構築し、商業予約プラットフォームを反映した総合的なツールエコシステムを構築した。
最先端モデルを評価することで、2つの重要なギャップが明らかになった。
一 エージェントが確実に制約を満たすが、選好の最適化に失敗し、かつ、許容できる最適のギャップ
(II)特にオープンソースモデルにおいて,複数サービス(フライトおよびホテル)調整タスクのパフォーマンスが低下する計画調整ギャップ。
実用的なユーザ対応ドメインで推論と計画を行うことにより、CompASSはエージェントの現実的なタスクにおけるユーザの嗜好を最適化する能力を直接測定するベンチマークを提供し、現実的なインパクトで理論的進歩をブリッジする。
関連論文リスト
- In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T05:32:44Z) - ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning [53.065247112514534]
ATLASは、現実世界の旅行計画タスクにおける制約意識の複雑な性質を扱うために設計された汎用マルチエージェントフレームワークである。
我々はTravelPlannerベンチマークで最先端のパフォーマンスを示し、最終パスレートを23.3%から44.4%に改善した。
論文 参考訳(メタデータ) (2025-09-29T23:23:52Z) - Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM [58.50687282180444]
旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。
我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。
計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents [16.295418365993033]
Flex-TravelPlannerは動的計画シナリオで柔軟に推論できる言語モデルの能力を評価するベンチマークです。
GPT-4o と Llama 3.1 70B を解析したところ,いくつかの重要な所見が得られた。
論文 参考訳(メタデータ) (2025-06-05T05:31:50Z) - Vaiage: A Multi-Agent Solution to Personalized Travel Planning [0.27309692684728615]
プランニングトリップは、ユーザの好みの相反、動的な外部情報、多段階の時間空間最適化を含む認知的に集中的なタスクである。
我々のアプローチであるVayageは、目標条件付きレコメンデータとシーケンシャルプランナの両方として機能する、大規模言語モデル(LLM)を中心に構築されたグラフ構造化マルチエージェントフレームワークを通じて、これらの課題に対処します。
自然言語のインタラクション、構造化ツールの使用、マップベースのフィードバックループを通じて、Vaiageは、象徴的推論と会話的理解の両方に根ざした適応的、説明可能、エンドツーエンドの旅行計画を可能にする。
論文 参考訳(メタデータ) (2025-05-16T06:54:52Z) - A Survey on the Optimization of Large Language Model-based Agents [16.733092886211097]
大規模言語モデル(LLM)は様々な分野で広く採用されており、自律的な意思決定や対話的なタスクに欠かせないものとなっている。
しかしながら、現在の作業は通常、バニラLLMに適用された迅速な設計や微調整戦略に依存している。
LLMに基づくエージェント最適化手法の総合的なレビューを行い、パラメータ駆動型およびパラメータフリーな手法に分類する。
論文 参考訳(メタデータ) (2025-03-16T10:09:10Z) - World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-13T15:49:56Z) - Interactive Joint Planning for Autonomous Vehicles [19.479300967537675]
対話的な運転シナリオでは、あるエージェントの行動が隣人の行動に大きな影響を及ぼす。
本稿では,MPCを学習予測モデルでブリッジする対話型共同計画(Interactive Joint Planning, IJP)を提案する。
IJPは、共同最適化やサンプリングベースの計画を実行することなく、ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-27T17:48:25Z) - Optimal Cost-Preference Trade-off Planning with Multiple Temporal Tasks [3.655021726150368]
個別のタスクやその関係性よりも好みを表現できる汎用的な枠組みを提供する新しい選好概念を導入する。
我々は,ユーザの好みに従属する行動と,リソース最適である行動の最適トレードオフ(Pareto)分析を行う。
論文 参考訳(メタデータ) (2023-06-22T21:56:49Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。