論文の概要: m2sv: A Scalable Benchmark for Map-to-Street-View Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.19099v1
- Date: Tue, 27 Jan 2026 02:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.126636
- Title: m2sv: A Scalable Benchmark for Map-to-Street-View Spatial Reasoning
- Title(参考訳): m2sv:Map-to-Street-View空間推論のためのスケーラブルベンチマーク
- Authors: Yosub Shin, Michael Buriek, Igor Molybog,
- Abstract要約: マップ・ツー・ストリート・ビュー空間推論のためのスケーラブルなベンチマークであるm2svを紹介する。
制御されたあいまいさを持つ地理的に多様なベンチマークであるm2sv-20kと、教師付き微調整のための構造化された推論トレースであるm2sv-sft-11kをリリースする。
既存のマルチモーダルベンチマークの性能は高いが、最も評価されたVLMはm2svで65.2%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 1.2162625261919089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision--language models (VLMs) achieve strong performance on many multimodal benchmarks but remain brittle on spatial reasoning tasks that require aligning abstract overhead representations with egocentric views. We introduce m2sv, a scalable benchmark for map-to-street-view spatial reasoning that asks models to infer camera viewing direction by aligning a north-up overhead map with a Street View image captured at the same real-world intersection. We release m2sv-20k, a geographically diverse benchmark with controlled ambiguity, along with m2sv-sft-11k, a curated set of structured reasoning traces for supervised fine-tuning. Despite strong performance on existing multimodal benchmarks, the best evaluated VLM achieves only 65.2% accuracy on m2sv, far below the human baseline of 95%. While supervised fine-tuning and reinforcement learning yield consistent gains, cross-benchmark evaluations reveal limited transfer. Beyond aggregate accuracy, we systematically analyze difficulty in map-to-street-view reasoning using both structural signals and human effort, and conduct an extensive failure analysis of adapted open models. Our findings highlight persistent gaps in geometric alignment, evidence aggregation, and reasoning consistency, motivating future work on grounded spatial reasoning across viewpoints.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くのマルチモーダルベンチマークにおいて強力な性能を達成するが、抽象的なオーバヘッド表現とエゴセントリックなビューとの整合性を必要とする空間的推論タスクには脆弱なままである。
我々は,マップ・ツー・ストリートビュー空間推論のためのスケーラブルなベンチマークであるm2svを紹介した。これは,北上オーバーヘッドマップと,同じ現実世界の交差点で撮影されたストリートビュー画像とを一致させて,モデルにカメラの視界方向を推定するように求めるものである。
制御されたあいまいさを持つ地理的に多様なベンチマークであるm2sv-20kと、教師付き微調整のための構造化された推論トレースであるm2sv-sft-11kをリリースする。
既存のマルチモーダルベンチマークの性能は高いが、最も評価されたVLMはm2svで65.2%の精度しか達成していない。
教師付き微調整および強化学習により一貫した利得が得られる一方で、クロスベンチマーク評価は、限られた移動を示す。
集合的精度の他に、構造信号と人的努力の両方を用いてマップ・ツー・ストリート・ビュー推論の難易度を体系的に解析し、適応されたオープンモデルの大規模な故障解析を行う。
本研究は,幾何的アライメント,エビデンスアグリゲーション,推論整合性の持続的ギャップを浮き彫りにした。
関連論文リスト
- Reasoning Path and Latent State Analysis for Multi-view Visual Spatial Reasoning: A Cognitive Science Perspective [17.592210658831902]
空間推論は、人間の知性の中核的な側面であり、3D環境における知覚、推論、計画を可能にする。
現在の視覚言語モデル(VLM)は、多視点設定における空間的推論のための幾何学的コヒーレンスとクロスビュー整合性を維持するのに苦労している。
本稿では,VLMが相補的な視点で空間的メンタルモデルを構築し,調整し,維持する方法を評価するための,認知的基盤を持つベンチマークであるReMindView-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-02T02:21:29Z) - Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。
このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文 参考訳(メタデータ) (2025-11-20T08:57:14Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。