論文の概要: DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents
- arxiv url: http://arxiv.org/abs/2509.21842v1
- Date: Fri, 26 Sep 2025 04:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.167798
- Title: DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents
- Title(参考訳): DeepTravel: 自律走行計画エージェントのためのエンドツーエンドのエージェント強化学習フレームワーク
- Authors: Yansong Ning, Rui Liu, Jun Wang, Kai Chen, Wei Li, Jun Fang, Kan Zheng, Naiqiang Tan, Hao Liu,
- Abstract要約: 旅行計画(TP)エージェントは、最近、旅行計画生成のための外部ツールやリソースと対話するための新しいビルディングブロックとして機能している。
本稿では,自律走行計画エージェントを構築するためのエージェント強化学習フレームワークであるDeepTravelを提案する。
- 参考スコア(独自算出の注目度): 26.786926580388325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Travel planning (TP) agent has recently worked as an emerging building block to interact with external tools and resources for travel itinerary generation, ensuring enjoyable user experience. Despite its benefits, existing studies rely on hand craft prompt and fixed agent workflow, hindering more flexible and autonomous TP agent. This paper proposes DeepTravel, an end to end agentic reinforcement learning framework for building autonomous travel planning agent, capable of autonomously planning, executing tools, and reflecting on tool responses to explore, verify, and refine intermediate actions in multi step reasoning. To achieve this, we first construct a robust sandbox environment by caching transportation, accommodation and POI data, facilitating TP agent training without being constrained by real world APIs limitations (e.g., inconsistent outputs). Moreover, we develop a hierarchical reward modeling system, where a trajectory level verifier first checks spatiotemporal feasibility and filters unsatisfied travel itinerary, and then the turn level verifier further validate itinerary detail consistency with tool responses, enabling efficient and precise reward service. Finally, we propose the reply augmented reinforcement learning method that enables TP agent to periodically replay from a failures experience buffer, emerging notable agentic capacity. We deploy trained TP agent on DiDi Enterprise Solutions App and conduct comprehensive online and offline evaluations, demonstrating that DeepTravel enables small size LLMs (e.g., Qwen3 32B) to significantly outperform existing frontier LLMs such as OpenAI o1, o3 and DeepSeek R1 in travel planning tasks.
- Abstract(参考訳): 旅行計画(TP)エージェントは、最近、旅行反復生成のための外部ツールやリソースと対話し、楽しいユーザエクスペリエンスを確保するために、新しいビルディングブロックとして機能している。
その利点にもかかわらず、既存の研究は手工芸のプロンプトと固定されたエージェントワークフローに依存しており、より柔軟で自律的なTPエージェントを妨げる。
本稿では,自律走行計画エージェントを構築するためのエンドツーエンドのエージェント強化学習フレームワークであるDeepTravelを提案する。
そこで,我々はまず,交通機関,宿泊施設,POIデータをキャッシュすることで,実世界のAPI制限に制約されることなく,TPエージェントのトレーニングを容易にし,ロバストなサンドボックス環境を構築する。
さらに,まず軌道レベル検証器が時空間実現可能性を確認し,不満足な走行経路をフィルタし,次にターンレベル検証器がツール応答との反復的詳細整合性をさらに検証し,効率的かつ正確な報奨サービスを実現する階層型報酬モデリングシステムを開発した。
最後に,TPエージェントが障害経験バッファから定期的に再生可能な応答強化学習手法を提案する。
トレーニングされたTPエージェントをDiDi Enterprise Solutions App上にデプロイし、オンラインおよびオフラインで総合的な評価を行い、旅行計画タスクにおいてDeepTravelが小規模のLCM(例えばQwen3 32B)でOpenAI o1、o3、DeepSeek R1といった既存のフロンティアLLMを大幅に上回ることを実証した。
関連論文リスト
- WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence [36.703562827382655]
インタラクティブなマップAIアシスタントであるIMAIAを紹介する。
ベクトル(ストリート)マップと衛星画像の両方との自然言語による対話を可能にする。
カメラの入力を地理空間知能で拡張し、ユーザーが世界を理解するのを助ける。
論文 参考訳(メタデータ) (2025-07-09T16:18:09Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning [39.934634038758404]
本稿では,検索用時間RAG対応旅行計画の最初のベンチマークであるTP-RAGを紹介する。
我々のデータセットには、2,348の現実世界の旅行クエリ、85,575の微粒なPOI、18,784の注釈付きPOIが含まれている。
論文 参考訳(メタデータ) (2025-04-11T17:02:40Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Smart Language Agents in Real-World Planning [0.0]
大規模言語モデル(LLM)の旅行計画能力の向上を目指す。
LLM自動プロンプトと「Human-in-the-loop」を組み合わせた半自動プロンプト生成フレームワークを提案する。
以上の結果から,LLM自動プロンプトには制限があり,"Human-in-the-loop"は1回のイテレーションで139%の大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-29T03:00:30Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。