論文の概要: MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios
- arxiv url: http://arxiv.org/abs/2602.22638v1
- Date: Thu, 26 Feb 2026 05:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.541414
- Title: MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios
- Title(参考訳): MobilityBench: 現実のモビリティシナリオにおけるルートプラニングエージェントの評価ベンチマーク
- Authors: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu,
- Abstract要約: 我々は,大規模言語モデル (LLM) に基づく経路計画エージェントを実世界の移動シナリオで評価するためのベンチマークである MobilityBenchを紹介する。
MobilityBenchは、Amapから収集された大規模で匿名化された実際のユーザクエリから構築されている。
本稿では,結果の妥当性を主眼とした多次元評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 34.570930885283694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decision making. However, systematic evaluation in real-world mobility settings is hindered by diverse routing demands, non-deterministic mapping services, and limited reproducibility. In this study, we introduce MobilityBench, a scalable benchmark for evaluating LLM-based route-planning agents in real-world mobility scenarios. MobilityBench is constructed from large-scale, anonymized real user queries collected from Amap and covers a broad spectrum of route-planning intents across multiple cities worldwide. To enable reproducible, end-to-end evaluation, we design a deterministic API-replay sandbox that eliminates environmental variance from live services. We further propose a multi-dimensional evaluation protocol centered on outcome validity, complemented by assessments of instruction understanding, planning, tool use, and efficiency. Using MobilityBench, we evaluate multiple LLM-based route-planning agents across diverse real-world mobility scenarios and provide an in-depth analysis of their behaviors and performance. Our findings reveal that current models perform competently on Basic information retrieval and Route Planning tasks, yet struggle considerably with Preference-Constrained Route Planning, underscoring significant room for improvement in personalized mobility applications. We publicly release the benchmark data, evaluation toolkit, and documentation at https://github.com/AMAP-ML/MobilityBench .
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したルートプランニングエージェントは,自然言語インタラクションやツールによる意思決定を通じて,日常的な人間の移動を支援するための,有望なパラダイムとして登場した。
しかし、実世界の移動環境におけるシステム評価は、多様なルーティング要求、非決定論的マッピングサービス、限定的な再現性によって妨げられている。
本研究では,LLMに基づく経路計画エージェントを実世界の移動シナリオで評価するためのスケーラブルなベンチマークであるMobilityBenchを紹介する。
MobilityBenchは、Amapから収集された大規模で匿名化された実際のユーザクエリから構築され、世界中の複数の都市で経路計画の意図をカバーしている。
再現可能なエンド・ツー・エンドの評価を可能にするために,ライブサービスからの環境分散を解消する決定論的API再生サンドボックスを設計する。
さらに,結果の妥当性を重視した多次元評価プロトコルを提案する。
MobilityBenchを用いて、様々な現実のモビリティシナリオにまたがる複数のLCMベースの経路計画エージェントを評価し、その挙動と性能を詳細に分析する。
本研究により, 基本情報検索と経路計画のタスクにおいて, 現在のモデルが優れているが, 予測制約付き経路計画とはかなり競合し, パーソナライズされたモビリティアプリケーションにおいて, 大幅な改善の余地があることが判明した。
ベンチマークデータ、評価ツールキット、ドキュメントはhttps://github.com/AMAP-ML/MobilityBench で公開しています。
関連論文リスト
- TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning [22.3041021610283]
旅行計画は、大規模言語モデル(LLM)計画とツール使用能力をテストするための自然な現実的なタスクである。
TravelBenchは、完全な現実世界の旅行計画のベンチマークである。
論文 参考訳(メタデータ) (2025-12-27T18:25:14Z) - Leveraging RAG-LLMs for Urban Mobility Simulation and Analysis [1.7521077353162031]
モバイルアプリケーションと統合して、パーソナライズされたルートレコメンデーションを行うクラウドベースのLLMベースの共有e-mobilityプラットフォームを提案する。
システムオペレータークエリの平均実行精度は0.81、ユーザクエリは0.98である。
論文 参考訳(メタデータ) (2025-07-14T15:23:11Z) - Enhancing Large Language Models for Mobility Analytics with Semantic Location Tokenization [29.17336622418242]
移動分析のための大規模言語モデル(LLM)を大幅に強化する新しいフレームワークであるQT-Mobを提案する。
QT-Mobは、場所を表すためにコンパクトでセマンティックにリッチなトークンを学ぶ、ロケーショントークン化モジュールを導入した。
3つの実世界のデータセットの実験は、次の位置予測とモビリティ回復タスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-08T02:17:50Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。