論文の概要: m2sv: A Scalable Benchmark for Map-to-Street-View Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.19099v1
- Date: Tue, 27 Jan 2026 02:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.126636
- Title: m2sv: A Scalable Benchmark for Map-to-Street-View Spatial Reasoning
- Title(参考訳): m2sv:Map-to-Street-View空間推論のためのスケーラブルベンチマーク
- Authors: Yosub Shin, Michael Buriek, Igor Molybog,
- Abstract要約: マップ・ツー・ストリート・ビュー空間推論のためのスケーラブルなベンチマークであるm2svを紹介する。
制御されたあいまいさを持つ地理的に多様なベンチマークであるm2sv-20kと、教師付き微調整のための構造化された推論トレースであるm2sv-sft-11kをリリースする。
既存のマルチモーダルベンチマークの性能は高いが、最も評価されたVLMはm2svで65.2%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 1.2162625261919089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision--language models (VLMs) achieve strong performance on many multimodal benchmarks but remain brittle on spatial reasoning tasks that require aligning abstract overhead representations with egocentric views. We introduce m2sv, a scalable benchmark for map-to-street-view spatial reasoning that asks models to infer camera viewing direction by aligning a north-up overhead map with a Street View image captured at the same real-world intersection. We release m2sv-20k, a geographically diverse benchmark with controlled ambiguity, along with m2sv-sft-11k, a curated set of structured reasoning traces for supervised fine-tuning. Despite strong performance on existing multimodal benchmarks, the best evaluated VLM achieves only 65.2% accuracy on m2sv, far below the human baseline of 95%. While supervised fine-tuning and reinforcement learning yield consistent gains, cross-benchmark evaluations reveal limited transfer. Beyond aggregate accuracy, we systematically analyze difficulty in map-to-street-view reasoning using both structural signals and human effort, and conduct an extensive failure analysis of adapted open models. Our findings highlight persistent gaps in geometric alignment, evidence aggregation, and reasoning consistency, motivating future work on grounded spatial reasoning across viewpoints.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くのマルチモーダルベンチマークにおいて強力な性能を達成するが、抽象的なオーバヘッド表現とエゴセントリックなビューとの整合性を必要とする空間的推論タスクには脆弱なままである。
我々は,マップ・ツー・ストリートビュー空間推論のためのスケーラブルなベンチマークであるm2svを紹介した。これは,北上オーバーヘッドマップと,同じ現実世界の交差点で撮影されたストリートビュー画像とを一致させて,モデルにカメラの視界方向を推定するように求めるものである。
制御されたあいまいさを持つ地理的に多様なベンチマークであるm2sv-20kと、教師付き微調整のための構造化された推論トレースであるm2sv-sft-11kをリリースする。
既存のマルチモーダルベンチマークの性能は高いが、最も評価されたVLMはm2svで65.2%の精度しか達成していない。
教師付き微調整および強化学習により一貫した利得が得られる一方で、クロスベンチマーク評価は、限られた移動を示す。
集合的精度の他に、構造信号と人的努力の両方を用いてマップ・ツー・ストリート・ビュー推論の難易度を体系的に解析し、適応されたオープンモデルの大規模な故障解析を行う。
本研究は,幾何的アライメント,エビデンスアグリゲーション,推論整合性の持続的ギャップを浮き彫りにした。
関連論文リスト
- MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps [22.530685223300523]
MapVerseは、現実世界の地図上に構築された大規模なベンチマークである。
11,837人の人間による質問応答対を1,025の地図で構成している。
我々は、基準線を確立し、推論ギャップを定量化するために、我々のベンチマークに対して10の最先端モデルを評価する。
論文 参考訳(メタデータ) (2026-02-11T04:36:14Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Reasoning Path and Latent State Analysis for Multi-view Visual Spatial Reasoning: A Cognitive Science Perspective [17.592210658831902]
空間推論は、人間の知性の中核的な側面であり、3D環境における知覚、推論、計画を可能にする。
現在の視覚言語モデル(VLM)は、多視点設定における空間的推論のための幾何学的コヒーレンスとクロスビュー整合性を維持するのに苦労している。
本稿では,VLMが相補的な視点で空間的メンタルモデルを構築し,調整し,維持する方法を評価するための,認知的基盤を持つベンチマークであるReMindView-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-02T02:21:29Z) - Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。
このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文 参考訳(メタデータ) (2025-11-20T08:57:14Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。