論文の概要: RoadBench: Benchmarking MLLMs on Fine-Grained Spatial Understanding and Reasoning under Urban Road Scenarios
- arxiv url: http://arxiv.org/abs/2511.18011v1
- Date: Sat, 22 Nov 2025 10:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.582984
- Title: RoadBench: Benchmarking MLLMs on Fine-Grained Spatial Understanding and Reasoning under Urban Road Scenarios
- Title(参考訳): RoadBench: 都市道路シナリオ下での微粒化空間理解と推論のためのMLLMのベンチマーク
- Authors: Jun Zhang, Jie Feng, Long Chen, Junhui Wang, Zhicheng Liu, Depeng Jin, Yong Li,
- Abstract要約: マルチモーダルな大言語モデル (MLLM) は、一般的な空間的理解と推論において強力な能力を示している。
RoadBenchはMLLMの詳細な空間的理解と推論能力を総合的に評価するベンチマークである。
RoadBenchは、都市シナリオにおける既存のMLLMのきめ細かい空間的理解と推論能力の重大な欠点を明らかにしている。
- 参考スコア(独自算出の注目度): 30.718671658759366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated powerful capabilities in general spatial understanding and reasoning. However, their fine-grained spatial understanding and reasoning capabilities in complex urban scenarios have not received significant attention in the fields of both research and industry. To fill this gap, we focus primarily on road markings as a typical example of fine-grained spatial elements under urban scenarios, given the essential role of the integrated road traffic network they form within cities. Around road markings and urban traffic systems, we propose RoadBench, a systematic benchmark that comprehensively evaluates MLLMs' fine-grained spatial understanding and reasoning capabilities using BEV and FPV image inputs. This benchmark comprises six tasks consisting of 9,121 strictly manually verified test cases. These tasks form a systematic evaluation framework that bridges understanding at local spatial scopes to global reasoning. They not only test MLLMs' capabilities in recognition, joint understanding, and reasoning but also assess their ability to integrate image information with domain knowledge. After evaluating 14 mainstream MLLMs, we confirm that RoadBench is a challenging benchmark for MLLMs while revealing significant shortcomings in existing MLLMs' fine-grained spatial understanding and reasoning capabilities within urban scenarios. In certain tasks, their performance even falls short of simple rule-based or random selection baselines. These findings, along with RoadBench itself, will contribute to the comprehensive advancement of spatial understanding capabilities for MLLMs. The benchmark code, example datasets, and raw evaluation results are available in the supplementary material.
- Abstract(参考訳): マルチモーダルな大言語モデル (MLLM) は、一般的な空間的理解と推論において強力な能力を示している。
しかし、複雑な都市シナリオにおける空間的理解と推論能力は、研究と産業の両方の分野で大きな注目を集めていない。
このギャップを埋めるために,我々は,都市内における道路交通網の形成に不可欠な役割を考慮し,都市環境下でのきめ細かい空間要素の典型的な例として,道路マーキングに注目した。
道路標識と都市交通システムを中心に,BEVおよびFPV画像入力を用いたMLLMの細粒度空間理解と推論能力を総合的に評価するシステムベンチマークであるRoadBenchを提案する。
このベンチマークは、9,121の厳密な検証テストケースからなる6つのタスクで構成される。
これらのタスクは、局所的な空間的スコープからグローバルな推論への理解を橋渡しする体系的な評価フレームワークを形成する。
彼らはMLLMの認識、共同理解、推論能力をテストするだけでなく、画像情報とドメイン知識を統合する能力を評価する。
MLLMを14種類評価した結果,RoadBenchはMLLMにとって困難なベンチマークであり,都市シナリオにおける既存のMLLMの詳細な空間的理解と推論能力に重大な欠陥があることが判明した。
特定のタスクでは、それらのパフォーマンスは単純なルールベースやランダムな選択ベースラインにさえ達しません。
これらの知見は、RoadBench自身とともに、MLLMの空間理解能力の総合的な進歩に寄与する。
補足資料には、ベンチマークコード、サンプルデータセット、生の評価結果が提供されている。
関連論文リスト
- Spatial Preference Rewarding for MLLMs Spatial Understanding [92.25703021388142]
マルチモーダル大言語モデル (MLLM) は, 有望な空間理解能力を示した。
彼らの成功にもかかわらず、MLLMは依然として微粒な空間知覚能力に不足している。
本稿では,MLLMの空間能力を高めるSPR(Spatial Preference Rewarding)アプローチを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:16:18Z) - Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture [16.15618237704827]
データと建築の両面から空間的理解を体系的に分析する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。
アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
論文 参考訳(メタデータ) (2025-09-02T14:22:43Z) - SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence [102.49463630166132]
合成空間評価のベンチマークである SpaCE-10 について述べる。
SpaCE-10では、10個の原子空間能力を定義し、8つの合成能力を形成する。
SpaCE-10の共通MLLMの広範な評価を行い、最も先進的なMLLMでさえ、大きなマージンで人間より遅れていることを発見した。
論文 参考訳(メタデータ) (2025-06-09T17:41:36Z) - Can LLMs Learn to Map the World from Local Descriptions? [50.490593949836146]
本研究では,Large Language Models (LLMs) がコヒーレントなグローバル空間認識を構築できるかどうかを検討する。
都市環境を模擬した実験により, LLMは実空間分布に一致した潜在表現を示すことを示した。
論文 参考訳(メタデータ) (2025-05-27T08:22:58Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence [13.810192130250744]
SpaceLLMのコアは、シーンベースの分析のために事前学習されたLCMを誘導するために、生の空間データから詳細で構造化されたシーン記述を構築することである。
広汎な実験により,事前学習したLLMは空間分布情報を正確に知覚できることが判明した。
都市分析におけるLLM性能に影響を及ぼす要因として,多分野知識,文脈長,推論能力が重要である。
論文 参考訳(メタデータ) (2025-05-19T04:53:41Z) - Can a Large Language Model Assess Urban Design Quality? Evaluating Walkability Metrics Across Expertise Levels [0.0]
都市環境は公共空間における人間の活動を支援するのに不可欠である。
ストリートビュー画像(SVI)や大規模言語モデル(MLLM)といったビッグデータの出現は、研究者や実践者が都市環境を調査し、測定し、評価する方法を変えつつある。
本研究では,都市デザインの質を評価する上で,専門家知識の統合がMLLMの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-04-28T09:41:17Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。