論文の概要: USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning of LLMs as Urban Agents
- arxiv url: http://arxiv.org/abs/2505.17572v1
- Date: Fri, 23 May 2025 07:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.897681
- Title: USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning of LLMs as Urban Agents
- Title(参考訳): USTBench: 都市エージェントとしてのLLMの時空間推論のベンチマークと分離
- Authors: Siqi Lai, Yansong Ning, Zirui Yuan, Zhixi Chen, Hao Liu,
- Abstract要約: 大規模言語モデル (LLMs) は、様々な都市下流アプリケーションをサポートする都市エージェントを構築するための有望な候補となる、時間的非時間的可能性を示している。
結果レベル研究における都市エージェントの評価に関する既存の研究は、その根底にある推論過程について限定的な洞察を与える。
その結果、時間的推論における都市エージェントの強さと限界はいまだに理解されていない。
USTBenchは、LLMの時間的推論能力を4次元にわたる都市エージェントとして評価する最初のベンチマークである。
- 参考スコア(独自算出の注目度): 6.054990893127997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown emerging potential in spatiotemporal reasoning, making them promising candidates for building urban agents that support diverse urban downstream applications. Despite these benefits, existing studies primarily focus on evaluating urban LLM agent on outcome-level metrics (e.g., prediction accuracy, traffic efficiency), offering limited insight into their underlying reasoning processes. As a result, the strengths and limitations of urban LLM agents in spatiotemporal reasoning remain poorly understood. To this end, we introduce USTBench, the first benchmark to evaluate LLMs' spatiotemporal reasoning abilities as urban agents across four decomposed dimensions: spatiotemporal understanding, forecasting, planning, and reflection with feedback. Specifically, USTBench supports five diverse urban decision-making and four spatiotemporal prediction tasks, all running within our constructed interactive city environment UAgentEnv. The benchmark includes 62,466 structured QA pairs for process-level evaluation and standardized end-to-end task assessments, enabling fine-grained diagnostics and broad task-level comparison across diverse urban scenarios. Through extensive evaluation of thirteen leading LLMs, we reveal that although LLMs show promising potential across various urban downstream tasks, they still struggle in long-horizon planning and reflective adaptation in dynamic urban contexts. Notably, recent advanced reasoning models (e.g., DeepSeek-R1) trained on general logic or mathematical problems do not consistently outperform non-reasoning LLMs. This discrepancy highlights the need for domain-specialized adaptation methods to enhance urban spatiotemporal reasoning. Overall, USTBench provides a foundation to build more adaptive and effective LLM-based urban agents and broad smart city applications.
- Abstract(参考訳): 大規模言語モデル (LLM) は時空間推論において新たな可能性を示しており、多様な都市下流アプリケーションをサポートする都市エージェント構築の候補候補として期待されている。
これらの利点にもかかわらず、既存の研究では主に、結果レベルの指標(例えば、予測精度、交通効率)に基づく都市LLMエージェントの評価に焦点が当てられ、基礎となる推論プロセスに関する限られた洞察を提供する。
その結果, 時空間推論における都市LLMエージェントの強度と限界はよく分かっていない。
この目的のために, 時空間理解, 予測, 計画, リフレクションの4次元にわたる都市エージェントとして, LLMの時空間推論能力を評価する最初のベンチマークであるUSTBenchを紹介した。
特に、USTBenchは5つの多様な都市意思決定と4つの時空間予測タスクをサポートし、いずれも構築された対話型都市環境UAgentEnv内で動作する。
このベンチマークには、プロセスレベルの評価と標準化されたエンドツーエンドタスクアセスメントのための62,466の構造化されたQAペアが含まれており、詳細な診断と多様な都市シナリオにおけるタスクレベルの広範な比較を可能にしている。
13種類のLLMを広範囲に評価した結果,LLMは様々な都市下流タスクにおいて有望なポテンシャルを示すが,長期計画や動的都市環境における反射適応に苦慮していることが明らかとなった。
特に、最近の高度な推論モデル(例えばDeepSeek-R1)は、一般論理や数学的問題に基づいて訓練されているが、非推論LSMよりも一貫して優れているわけではない。
この不一致は、都市時空間推論を強化するためのドメイン特化適応手法の必要性を浮き彫りにする。
全体としてUSTBenchは、より適応的で効果的なLLMベースの都市エージェントと幅広いスマートシティアプリケーションを構築するための基盤を提供する。
関連論文リスト
- UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models [18.051209616917042]
UrbanMind は多面的都市動態予測のための空間時空間 LLM フレームワークである。
UrbanMindのコアとなるMuffin-MAEは、特殊なマスキング戦略を備えた多面式フュージョンマスク自動エンコーダである。
複数の都市にまたがる実世界の都市データセットの実験は、UrbanMindが一貫して最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-16T19:38:06Z) - UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models [26.94010977379045]
都市計画における大規模言語モデル(LLM)の有効性を評価するためのベンチマークであるUrbanPlanBenchを導入する。
LLM間の計画的知識の獲得において,最も熟練したモデルでさえ,専門家の基準を満たしていないという大きな不均衡が明らかになる。
我々は,都市計画試験と教科書から得られた3万以上の指導ペアからなる,史上最大規模の微調整データセットであるUrbanPlanTextを提示する。
論文 参考訳(メタデータ) (2025-04-23T13:53:59Z) - Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - CityGPT: Empowering Urban Spatial Cognition of Large Language Models [7.40606412920065]
強力な言語生成と推論機能を備えた大規模言語モデル(LLM)は、すでに多くのドメインで成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
都市空間の理解と関連する都市課題の解決におけるLCMの能力向上のための体系的枠組みであるCityGPTを提案する。
論文 参考訳(メタデータ) (2024-06-20T02:32:16Z) - CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
広範な一般知識と強力な推論能力を持つ大規模言語モデル(LLM)は、急速な開発と広範な応用が見られた。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを設計する。
我々は,CityBenchとして認識理解と意思決定の2つのカテゴリに8つの代表的都市タスクを設計する。
論文 参考訳(メタデータ) (2024-06-20T02:25:07Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。