論文の概要: SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models
- arxiv url: http://arxiv.org/abs/2411.13112v3
- Date: Tue, 27 May 2025 14:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:18.957356
- Title: SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models
- Title(参考訳): SURDS:視覚言語モデルを用いた運転シナリオにおける空間的理解と推論のベンチマーク
- Authors: Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Dujun Nie, Wenke Huang, Chenming Zhang, Shuai Liu, Hao Zhao, Long Chen,
- Abstract要約: 視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
- 参考スコア(独自算出の注目度): 15.50826328938879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate spatial reasoning in outdoor environments - covering geometry, object pose, and inter-object relationships - is fundamental to downstream tasks such as mapping, motion forecasting, and high-level planning in autonomous driving. We introduce SURDS, a large-scale benchmark designed to systematically evaluate the spatial reasoning capabilities of vision language models (VLMs). Built on the nuScenes dataset, SURDS comprises 41,080 vision-question-answer training instances and 9,250 evaluation samples, spanning six spatial categories: orientation, depth estimation, pixel-level localization, pairwise distance, lateral ordering, and front-behind relations. We benchmark leading general-purpose VLMs, including GPT, Gemini, and Qwen, revealing persistent limitations in fine-grained spatial understanding. To address these deficiencies, we go beyond static evaluation and explore whether alignment techniques can improve spatial reasoning performance. Specifically, we propose a reinforcement learning-based alignment scheme leveraging spatially grounded reward signals - capturing both perception-level accuracy (location) and reasoning consistency (logic). We further incorporate final-answer correctness and output-format rewards to guide fine-grained policy adaptation. Our GRPO-aligned variant achieves an overall score of 40.80 in the SURDS benchmark. Notably, it outperforms proprietary systems such as GPT-4o (13.30) and Gemini-2.0-flash (35.71). To our best knowledge, this is the first study to demonstrate that reinforcement learning-based alignment can significantly and consistently enhance the spatial reasoning capabilities of VLMs in real-world driving contexts. We release the SURDS benchmark, evaluation toolkit, and GRPO alignment code through: https://github.com/XiandaGuo/Drive-MLLM.
- Abstract(参考訳): 屋外環境における正確な空間推論 - 幾何学、オブジェクトのポーズ、オブジェクト間の関係 - は、マッピング、モーション予測、自律運転における高レベル計画といった下流タスクに基礎を置いている。
本稿では,視覚言語モデル(VLM)の空間推論能力を体系的に評価する大規模ベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚-問合せ訓練インスタンスと9,250の評価サンプルで構成されており、方向、深さ推定、ピクセルレベルのローカライゼーション、ペアワイズ距離、横方向順序付け、およびフロント-ビハインド関係の6つの空間カテゴリにまたがっている。
我々は、GPT、Gemini、Qwenを含む主要な汎用VLMをベンチマークし、きめ細かい空間的理解において永続的な制限を明らかにする。
これらの欠陥に対処するため、静的評価を超越し、アライメント技術が空間推論性能を向上させるかどうかを考察する。
具体的には,認識レベルの精度(位置)と推論一貫性(論理的)の両方を捉えることで,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
さらに、細かな政策適応を導くために、最終回答の正しさと出力形式報酬を取り入れます。
SURDSベンチマークの総合スコアは40.80である。
特に、GPT-4o (13.30) やGemini-2.0-flash (35.71) などのプロプライエタリシステムより優れている。
我々の知る限り、実世界の運転環境において、強化学習に基づくアライメントがVLMの空間的推論能力を大幅に向上させることができることを示す最初の研究である。
我々は、SURDSベンチマーク、評価ツールキット、GRPOアライメントコードをhttps://github.com/XiandaGuo/Drive-MLLMでリリースします。
関連論文リスト
- SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - APR-Transformer: Initial Pose Estimation for Localization in Complex Environments through Absolute Pose Regression [3.2584852202495806]
本稿では,最先端の手法に触発されたモデルアーキテクチャであるAPR-Transformerを紹介する。
提案手法は,確立したベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-14T13:06:42Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - DriVLM: Domain Adaptation of Vision-Language Models in Autonomous Driving [20.644133177870852]
マルチモーダル大言語モデル(MLLM)は、画像、ビデオ、音声、テキストなど、複数のモダリティを組み合わせることができる。
ほとんどのMLLMは高い計算資源を必要としており、ほとんどの研究者や開発者にとって大きな課題である。
本稿では,小型MLLMの実用性について検討し,小型MLLMを自律運転分野に適用した。
論文 参考訳(メタデータ) (2025-01-09T09:02:41Z) - MLLM-SUL: Multimodal Large Language Model for Semantic Scene Understanding and Localization in Traffic Scenarios [10.353093987945012]
マルチモーダル大規模言語モデル(MLLM)は、多くの自律運転タスクにおいて満足な効果を示している。
本稿では,MLLMを用いて,協調的セマンティック・シーン理解とリスク・ローカライゼーションの課題を解決する。
本手法はシーン理解タスクにおいて,80.1%のBLEU-1スコア,298.5%のCIDErスコア,59.6%の精度を達成している。
論文 参考訳(メタデータ) (2024-12-27T02:05:38Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。
本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文 参考訳(メタデータ) (2024-10-20T04:36:19Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Off-Road LiDAR Intensity Based Semantic Segmentation [11.684330305297523]
学習ベースのLiDARセマンティックセグメンテーションは、機械学習技術を使用して、LiDARポイントクラウド内のオブジェクトを自動的に分類する。
オフロード環境におけるオブジェクトセグメンテーションを強化するために,LiDAR強度パラメータを活用することでこの問題に対処する。
提案手法をRELLIS-3Dデータセットで評価し,mIoUを改良した「パドル」と「グラス」の予備解析として有望な結果を得た。
論文 参考訳(メタデータ) (2024-01-02T21:27:43Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Evaluation of Large Language Models for Decision Making in Autonomous
Driving [4.271294502084542]
自律走行にLarge Language Models (LLMs)を使用する一つの戦略は、周囲のオブジェクトを LLM にテキストプロンプトとして入力することである。
このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。
本研究は、自律運転の文脈におけるLLMの2つの能力について定量的に評価した。
論文 参考訳(メタデータ) (2023-12-11T12:56:40Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-03T11:05:14Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。