Fugu-MT 論文翻訳(概要): ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning

論文の概要: ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning

arxiv url: http://arxiv.org/abs/2412.13682v3
Date: Fri, 30 May 2025 13:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 15:03:33.551054
Title: ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning
Title（参考訳）: ChinaTravel:中国の旅行計画における言語エージェントのオープンソースベンチマーク
Authors: Jie-Jing Shao, Bo-Wen Zhang, Xiao-Wen Yang, Baizhi Chen, Si-Yu Han, Wen-Da Wei, Guohao Cai, Zhenhua Dong, Lan-Zhe Guo, Yu-feng Li,
Abstract要約: emph ChinaTravelは、中国旅行の真の要件に基づいた初のオープンエンドベンチマークです。本研究では,拡張性評価,実現可能性,制約満足度,嗜好比較を網羅する,構成的に一般化可能なドメイン固有言語を設計する。経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0%の制約満足度を達成する。
参考スコア（独自算出の注目度）: 49.37899519520761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in LLMs, particularly in language reasoning and tool integration, have rapidly sparked the \emph{Language Agents} for real-world development. Among these, travel planning represents a prominent domain, combining complex multi-objective planning challenges with practical deployment demands. However, existing benchmarks often oversimplify real-world requirements by focusing on synthetic queries and limited constraints. We address the gap of evaluating language agents in multi-day, multi-POI travel planning scenarios with diverse and open human needs. Specifically, we introduce \emph{ChinaTravel}, the first open-ended benchmark grounded in authentic Chinese travel requirements collected from 1,154 human participants. We design a compositionally generalizable domain-specific language (DSL) for scalable evaluation, covering feasibility, constraint satisfaction, and preference comparison. Empirical studies reveal the potential of neuro-symbolic agents in travel planning, achieving a 37.0\% constraint satisfaction rate on human queries, a 10\times improvement over purely neural models. These findings highlight ChinaTravel as a pivotal milestone for advancing language agents in complex, real-world planning scenarios.
Abstract（参考訳）: LLMの最近の進歩は、特に言語推論やツール統合において、現実世界開発のための 'emph{Language Agents} を急速に引き起こしている。これらのうち、旅行計画は、複雑な多目的計画課題と実践的な展開要求を組み合わせた、顕著な領域である。しかし、既存のベンチマークは、合成クエリと制限された制約に集中することで、現実の要求を単純化することが多い。我々は多日多目的旅行計画シナリオにおける言語エージェントの評価のギャップに対処する。具体的には,1,154人の被験者から収集した中国旅行の正確な要件をベースとした,最初のオープンエンドベンチマークである 'emph{ChinaTravel} を紹介する。構成一般化可能なドメイン固有言語(DSL)をスケーラブルな評価のために設計し、実現可能性、制約満足度、嗜好比較を網羅する。経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0\%の制約満足度、純粋に神経モデルよりも10\timesの改善を達成した。これらの調査結果は、複雑な現実世界の計画シナリオにおいて、ChinaTravelが言語エージェントを前進させるための重要なマイルストーンであることを示している。

関連論文リスト

WorldTravel: A Realistic Multimodal Travel-Planning Benchmark with Tightly Coupled Constraints [43.573740013433394]
現実の自律計画では、単一の決定がその後のすべての行動の実現可能性を決定するような密結合した制約を調整する必要がある。 textbfWorldTravelは、平均15以上の時間的および論理的制約をナビゲートする必要がある5つの都市で150の現実世界の旅行シナリオからなるベンチマークである。エージェントを現実的な配置で評価するために,2000以上のレンダリングWebページを備えたマルチモーダル環境である textbfWorldTravel-Webscape を開発した。
論文参考訳（メタデータ） (2026-02-09T08:03:30Z)
ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning [53.065247112514534]
ATLASは、現実世界の旅行計画タスクにおける制約意識の複雑な性質を扱うために設計された汎用マルチエージェントフレームワークである。我々はTravelPlannerベンチマークで最先端のパフォーマンスを示し、最終パスレートを23.3%から44.4%に改善した。
論文参考訳（メタデータ） (2025-09-29T23:23:52Z)
TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文参考訳（メタデータ） (2025-08-02T16:44:02Z)
Foundation Models for Logistics: Toward Certifiable, Conversational Planning Interfaces [59.80143393787701]
大規模言語モデル(LLM)は不確実性に対処し、導入障壁を低くしながら再計画の加速を約束する。本稿では,自然言語対話のアクセシビリティと目標解釈の検証可能な保証とを組み合わせたニューロシンボリック・フレームワークを提案する。わずか100個の不確実性フィルタで微調整された軽量モデルは、GPT-4.1のゼロショット性能を上回り、推論遅延を50%近く削減する。
論文参考訳（メタデータ） (2025-07-15T14:24:01Z)
Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM [58.50687282180444]
旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
論文参考訳（メタデータ） (2025-06-14T09:37:59Z)
TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning [39.934634038758404]
本稿では,検索用時間RAG対応旅行計画の最初のベンチマークであるTP-RAGを紹介する。我々のデータセットには、2,348の現実世界の旅行クエリ、85,575の微粒なPOI、18,784の注釈付きPOIが含まれている。
論文参考訳（メタデータ） (2025-04-11T17:02:40Z)
TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning [7.841787597078323]
TripCraft は LLM によるパーソナライズされた旅行計画のための,新たなベンチマークを確立している。パラメータ情報設定は食事スケジューリングを著しく向上させ、7日間のシナリオでは時間的食事スコアが61%から80%に向上する。
論文参考訳（メタデータ） (2025-02-27T20:33:28Z)
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。 EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文参考訳（メタデータ） (2024-12-05T18:57:23Z)
To the Globe (TTG): Towards Language-Driven Guaranteed Travel Planning [54.9340658451129]
To the Globe(TTG)は、ユーザから自然言語要求を受け取り、それをシンボリックフォームに変換するリアルタイムのデモシステムである。システム全体の応答に5秒を要し、保証されたイテナリでユーザ要求に応答する。ユーザによる評価では、TTGは生成した繰り返しで35-40%のネットプロモータースコア(NPS)を一貫して達成する。
論文参考訳（メタデータ） (2024-10-21T19:30:05Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文参考訳（メタデータ） (2024-06-18T14:07:28Z)
Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools [12.875270710153021]
大規模言語モデル(LLM)は、複雑なマルチ制約計画問題に対して、直接的に正しい計画を生成するのに苦慮している。制約付き満足度問題として複雑なマルチ制約計画問題を定式化し,解決する LLM ベースの計画フレームワークを提案する。我々のフレームワークは、2つのデータセットから、平均81.6%と91.7%の満足できないクエリを修正および解決できることを示します。
論文参考訳（メタデータ） (2024-04-18T04:36:37Z)
TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文参考訳（メタデータ） (2024-02-02T18:39:51Z)
DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文参考訳（メタデータ） (2023-08-14T23:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。