論文の概要: ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning
- arxiv url: http://arxiv.org/abs/2412.13682v1
- Date: Wed, 18 Dec 2024 10:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:24.745377
- Title: ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning
- Title(参考訳): ChinaTravel:中国旅行計画における言語エージェントのリアルタイムベンチマーク
- Authors: Jie-Jing Shao, Xiao-Wen Yang, Bo-Wen Zhang, Baizhi Chen, Wen-Da Wei, Lan-Zhe Guo, Yu-feng Li,
- Abstract要約: ChinaTravelは、中国の旅行計画シナリオに特化して設計されたベンチマークである。
質問紙から旅行要求を収集し,構成的に一般化可能なドメイン特化言語を提案する。
実証研究により、旅行計画における神経象徴薬の可能性を明らかにし、27.9%の制約満足度を達成した。
我々は、オープン言語推論や未確認概念構成など、現実世界の旅行計画展開における重要な課題を特定します。
- 参考スコア(独自算出の注目度): 42.994441327187346
- License:
- Abstract: Recent advances in LLMs, particularly in language reasoning and tool integration, have rapidly sparked the real-world development of Language Agents. Among these, travel planning represents a prominent domain, combining academic challenges with practical value due to its complexity and market demand. However, existing benchmarks fail to reflect the diverse, real-world requirements crucial for deployment. To address this gap, we introduce ChinaTravel, a benchmark specifically designed for authentic Chinese travel planning scenarios. We collect the travel requirements from questionnaires and propose a compositionally generalizable domain-specific language that enables a scalable evaluation process, covering feasibility, constraint satisfaction, and preference comparison. Empirical studies reveal the potential of neuro-symbolic agents in travel planning, achieving a constraint satisfaction rate of 27.9%, significantly surpassing purely neural models at 2.6%. Moreover, we identify key challenges in real-world travel planning deployments, including open language reasoning and unseen concept composition. These findings highlight the significance of ChinaTravel as a pivotal milestone for advancing language agents in complex, real-world planning scenarios.
- Abstract(参考訳): LLMの最近の進歩、特に言語推論とツール統合は、Language Agentsの現実的な開発を急速に引き起こした。
これらのうち、旅行計画は、その複雑さと市場の需要のために、学術的な課題と実践的な価値を組み合わせた、顕著な領域である。
しかし、既存のベンチマークは、デプロイに不可欠な多様な現実世界の要件を反映していない。
このギャップに対処するため、中国旅行計画シナリオの特定に特化したベンチマークであるChinaTravelを紹介した。
質問紙から旅行要求を収集し、拡張性、制約満足度、嗜好比較をカバーし、スケーラブルな評価プロセスを可能にする構成的一般化可能なドメイン特化言語を提案する。
実験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、27.9%の制約満足度を達成し、2.6%の純神経モデルを大幅に上回っている。
さらに,オープン言語推論や未確認概念構成など,実世界の旅行計画展開における重要な課題を明らかにした。
これらの知見は、複雑な実世界の計画シナリオにおいて、言語エージェントを前進させるための重要なマイルストーンとして、ChinaTravelの重要性を強調している。
関連論文リスト
- To the Globe (TTG): Towards Language-Driven Guaranteed Travel Planning [54.9340658451129]
To the Globe(TTG)は、ユーザから自然言語要求を受け取り、それをシンボリックフォームに変換するリアルタイムのデモシステムである。
システム全体の応答に5秒を要し、保証されたイテナリでユーザ要求に応答する。
ユーザによる評価では、TTGは生成した繰り返しで35-40%のネットプロモータースコア(NPS)を一貫して達成する。
論文 参考訳(メタデータ) (2024-10-21T19:30:05Z) - TravelAgent: An AI Assistant for Personalized Travel Planning [36.046107116324826]
大規模言語モデル(LLM)を利用した旅行計画システムであるTravelAgentを紹介する。
TravelAgentはツール使用、推奨、計画、メモリモジュールの4つのモジュールで構成されている。
我々は,TravelAgentの性能を人間とシミュレーションユーザで評価し,その全体的な効果を3つの基準で示し,パーソナライズされたレコメンデーションの精度を確認した。
論文 参考訳(メタデータ) (2024-09-12T14:24:45Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools [12.875270710153021]
大規模言語モデル(LLM)は、複雑なマルチ制約計画問題に対して、直接的に正しい計画を生成するのに苦慮している。
制約付き満足度問題として複雑なマルチ制約計画問題を定式化し,解決する LLM ベースの計画フレームワークを提案する。
我々のフレームワークは、2つのデータセットから、平均81.6%と91.7%の満足できないクエリを修正および解決できることを示します。
論文 参考訳(メタデータ) (2024-04-18T04:36:37Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。