論文の概要: WorldTravel: A Realistic Multimodal Travel-Planning Benchmark with Tightly Coupled Constraints
- arxiv url: http://arxiv.org/abs/2602.08367v1
- Date: Mon, 09 Feb 2026 08:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.118958
- Title: WorldTravel: A Realistic Multimodal Travel-Planning Benchmark with Tightly Coupled Constraints
- Title(参考訳): WorldTravel: 厳密な結合制約を備えた現実的なマルチモーダルトラベルプランニングベンチマーク
- Authors: Zexuan Wang, Chenghao Yang, Yingqi Que, Zhenzhu Yang, Huaqing Yuan, Yiwen Wang, Zhengxuan Jiang, Shengjie Fang, Zhenhe Wu, Zhaohui Wang, Zhixin Yao, Jiashuo Liu, Jincheng Ren, Yuzhen Li, Yang Yang, Jiaheng Liu, Jian Yang, Zaiyuan Wang, Ge Zhang, Zhoufutu Wen, Wenhao Huang,
- Abstract要約: 現実の自律計画では、単一の決定がその後のすべての行動の実現可能性を決定するような密結合した制約を調整する必要がある。
textbfWorldTravelは、平均15以上の時間的および論理的制約をナビゲートする必要がある5つの都市で150の現実世界の旅行シナリオからなるベンチマークである。
エージェントを現実的な配置で評価するために,2000以上のレンダリングWebページを備えたマルチモーダル環境である textbfWorldTravel-Webscape を開発した。
- 参考スコア(独自算出の注目度): 43.573740013433394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world autonomous planning requires coordinating tightly coupled constraints where a single decision dictates the feasibility of all subsequent actions. However, existing benchmarks predominantly feature loosely coupled constraints solvable through local greedy decisions and rely on idealized data, failing to capture the complexity of extracting parameters from dynamic web environments. We introduce \textbf{WorldTravel}, a benchmark comprising 150 real-world travel scenarios across 5 cities that demand navigating an average of 15+ interdependent temporal and logical constraints. To evaluate agents in realistic deployments, we develop \textbf{WorldTravel-Webscape}, a multi-modal environment featuring over 2,000 rendered webpages where agents must perceive constraint parameters directly from visual layouts to inform their planning. Our evaluation of 10 frontier models reveals a significant performance collapse: even the state-of-the-art GPT-5.2 achieves only 32.67\% feasibility in text-only settings, which plummets to 19.33\% in multi-modal environments. We identify a critical Perception-Action Gap and a Planning Horizon threshold at approximately 10 constraints where model reasoning consistently fails, suggesting that perception and reasoning remain independent bottlenecks. These findings underscore the need for next-generation agents that unify high-fidelity visual perception with long-horizon reasoning to handle brittle real-world logistics.
- Abstract(参考訳): 現実の自律計画では、単一の決定がその後のすべての行動の実現可能性を決定するような密結合した制約を調整する必要がある。
しかし、既存のベンチマークは主に、局所的な欲求決定によって解決可能な疎結合な制約を特徴とし、理想的なデータに依存しており、動的なWeb環境からパラメータを抽出する複雑さを捉えていない。
我々は,平均15以上の時間的および論理的制約をナビゲートする必要がある5つの都市をまたいだ150の現実世界の旅行シナリオからなるベンチマークである‘textbf{WorldTravel} を紹介した。
エージェントを現実的な配置で評価するために,エージェントが視覚的レイアウトから直接制約パラメータを知覚し,その計画を伝える,2,000以上のレンダリングWebページを備えたマルチモーダル環境であるtextbf{WorldTravel-Webscape} を開発した。
最先端の GPT-5.2 でさえ、テキストのみの設定では 32.67 % しか実現できず、マルチモーダル環境では 19.33 % に低下する。
モデル推論が一貫して失敗する約10の制約で、重要な知覚-行動ギャップとプランニング・ホライゾンしきい値を特定し、認識と推論が独立したボトルネックのままであることを示唆する。
これらの知見は、脆弱な現実世界の物流を扱うための長距離推論と高忠実な視覚知覚を統一する次世代エージェントの必要性を浮き彫りにした。
関連論文リスト
- Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning [53.065247112514534]
ATLASは、現実世界の旅行計画タスクにおける制約意識の複雑な性質を扱うために設計された汎用マルチエージェントフレームワークである。
我々はTravelPlannerベンチマークで最先端のパフォーマンスを示し、最終パスレートを23.3%から44.4%に改善した。
論文 参考訳(メタデータ) (2025-09-29T23:23:52Z) - UnLoc: Leveraging Depth Uncertainties for Floorplan Localization [80.55849461031879]
UnLocはフロアプラン内のシーケンシャルカメラローカライゼーションのための効率的なデータ駆動ソリューションである。
本研究では,不確実性推定を組み込んだ新しい確率モデルを導入し,深度予測を明示的な確率分布としてモデル化する。
我々はUnLocを大規模合成および実世界のデータセット上で評価し、精度とロバスト性の観点から大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-14T14:45:43Z) - RETAIL: Towards Real-world Travel Planning for Large Language Models [36.75531019697594]
明示的なクエリをカバーしながら、暗黙的なクエリの意思決定をサポートする新しいデータセット textbfRETAIL を提案する。
また、環境意識が現実のシナリオで計画の実現性を確保すると同時に、オールインワンの旅行計画に詳細なPOI情報を組み込むことも可能である。
実験の結果,最強の既存モデルでさえ11.0%のパス率しか達成していないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-21T08:08:38Z) - TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。
このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。
旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文 参考訳(メタデータ) (2025-08-02T16:44:02Z) - Foundation Models for Logistics: Toward Certifiable, Conversational Planning Interfaces [59.80143393787701]
大規模言語モデル(LLM)は不確実性に対処し、導入障壁を低くしながら再計画の加速を約束する。
本稿では,自然言語対話のアクセシビリティと目標解釈の検証可能な保証とを組み合わせたニューロシンボリック・フレームワークを提案する。
わずか100個の不確実性フィルタで微調整された軽量モデルは、GPT-4.1のゼロショット性能を上回り、推論遅延を50%近く削減する。
論文 参考訳(メタデータ) (2025-07-15T14:24:01Z) - ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning [38.44879526364259]
emph ChinaTravelは、中国旅行の真の要件に基づいた初のオープンエンドベンチマークです。
本研究では,拡張性評価,実現可能性,制約満足度,嗜好比較を網羅する,構成的に一般化可能なドメイン固有言語を設計する。
経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0%の制約満足度を達成する。
論文 参考訳(メタデータ) (2024-12-18T10:10:12Z) - Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools [12.875270710153021]
大規模言語モデル(LLM)は、複雑なマルチ制約計画問題に対して、直接的に正しい計画を生成するのに苦労する。
複雑な多制約計画問題を形式化し,解決する LLM ベースの計画フレームワークを提案する。
我々のフレームワークは93.9%の成功率を達成し、多様なパラフレーズのプロンプトで有効である。
論文 参考訳(メタデータ) (2024-04-18T04:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。