Fugu-MT 論文翻訳(概要): DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

論文の概要: DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

arxiv url: http://arxiv.org/abs/2411.13112v1
Date: Wed, 20 Nov 2024 08:14:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.402853
Title: DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
Title（参考訳）: DriveMLLM: 自律運転における多モード大言語モデルを用いた空間的理解のためのベンチマーク
Authors: Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Chenming Zhang, Shuai Liu, Long Chen,
Abstract要約: 自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。 DriveMLLMには2,734個の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
参考スコア（独自算出の注目度）: 13.115027801151484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous driving requires a comprehensive understanding of 3D environments to facilitate high-level tasks such as motion prediction, planning, and mapping. In this paper, we introduce DriveMLLM, a benchmark specifically designed to evaluate the spatial understanding capabilities of multimodal large language models (MLLMs) in autonomous driving. DriveMLLM includes 2,734 front-facing camera images and introduces both absolute and relative spatial reasoning tasks, accompanied by linguistically diverse natural language questions. To measure MLLMs' performance, we propose novel evaluation metrics focusing on spatial understanding. We evaluate several state-of-the-art MLLMs on DriveMLLM, and our results reveal the limitations of current models in understanding complex spatial relationships in driving contexts. We believe these findings underscore the need for more advanced MLLM-based spatial reasoning methods and highlight the potential for DriveMLLM to drive further research in autonomous driving. Code will be available at \url{https://github.com/XiandaGuo/Drive-MLLM}.
Abstract（参考訳）: 自律運転は、モーション予測、計画、マッピングといった高度なタスクを促進するために、3D環境を包括的に理解する必要がある。本稿では,自律運転におけるマルチモーダル大規模言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。 DriveMLLMには2,734個の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。 MLLMの性能を評価するために,空間的理解に着目した新しい評価指標を提案する。我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。これらの知見は、より高度なMLLMに基づく空間推論手法の必要性を浮き彫りにして、DriveMLLMが自動運転のさらなる研究を促進する可能性を強調している。コードは \url{https://github.com/XiandaGuo/Drive-MLLM} で入手できる。

関連論文リスト

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文参考訳（メタデータ） (2026-03-03T13:28:07Z)
STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文参考訳（メタデータ） (2026-02-12T08:53:32Z)
RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T12:35:57Z)
From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文参考訳（メタデータ） (2025-12-22T18:58:12Z)
BOP-ASK: Object-Interaction Reasoning for Vision-Language Models [34.62272296627845]
視覚言語モデル (VLM) は空間推論ベンチマークにおいて顕著な性能を達成した。現在のベンチマークでは、高レベルな関係をテストするが、現実世界のアプリケーションに必要な詳細な空間的理解は無視されている。 BOP-ASKは、トレーニングとベンチマークの両方のためのオブジェクトインタラクション推論のための、新しい大規模データセットである。
論文参考訳（メタデータ） (2025-11-20T23:54:15Z)
Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning [7.670666668651702]
我々は,Track 3 2025 AI City Challengeで導入された物理AI空間情報ウェアハウスデータセットに,専用の空間推論フレームワークを導入する。提案手法は,入力プロンプトに直接マスク次元をバウンディングボックス座標の形で埋め込むことにより,空間的理解を高める。私たちの包括的なパイプラインは73.0606の最終的なスコアを獲得し、全体の4位を公開リーダボードに位置づけています。
論文参考訳（メタデータ） (2025-10-13T22:51:20Z)
SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文参考訳（メタデータ） (2025-10-09T17:50:54Z)
Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding [8.202861909913791]
基礎モデルにおけるオブジェクト中心空間推論のベンチマークを示す。グラウンディングディーノやOWLv2のような検出器は、リレーショナル推論に制限のある正確なボックスを提供する。本研究は,地域化と真の空間理解のギャップを強調し,地域社会における空間認識基盤モデルの必要性を指摘する。
論文参考訳（メタデータ） (2025-09-26T06:06:19Z)
SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文参考訳（メタデータ） (2025-06-02T06:58:43Z)
APR-Transformer: Initial Pose Estimation for Localization in Complex Environments through Absolute Pose Regression [3.2584852202495806]
本稿では,最先端の手法に触発されたモデルアーキテクチャであるAPR-Transformerを紹介する。提案手法は,確立したベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-14T13:06:42Z)
NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。 NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文参考訳（メタデータ） (2025-04-04T04:43:10Z)
DriVLM: Domain Adaptation of Vision-Language Models in Autonomous Driving [20.644133177870852]
マルチモーダル大言語モデル(MLLM)は、画像、ビデオ、音声、テキストなど、複数のモダリティを組み合わせることができる。ほとんどのMLLMは高い計算資源を必要としており、ほとんどの研究者や開発者にとって大きな課題である。本稿では,小型MLLMの実用性について検討し,小型MLLMを自律運転分野に適用した。
論文参考訳（メタデータ） (2025-01-09T09:02:41Z)
MLLM-SUL: Multimodal Large Language Model for Semantic Scene Understanding and Localization in Traffic Scenarios [10.353093987945012]
マルチモーダル大規模言語モデル(MLLM)は、多くの自律運転タスクにおいて満足な効果を示している。本稿では,MLLMを用いて,協調的セマンティック・シーン理解とリスク・ローカライゼーションの課題を解決する。本手法はシーン理解タスクにおいて,80.1%のBLEU-1スコア,298.5%のCIDErスコア,59.6%の精度を達成している。
論文参考訳（メタデータ） (2024-12-27T02:05:38Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文参考訳（メタデータ） (2024-10-20T04:36:19Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。本課題における最先端の視覚言語モデル(VLM)の性能について検討する。本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文参考訳（メタデータ） (2024-09-15T16:45:42Z)
Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文参考訳（メタデータ） (2024-06-28T14:56:21Z)
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-06-03T17:59:06Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
Off-Road LiDAR Intensity Based Semantic Segmentation [11.684330305297523]
学習ベースのLiDARセマンティックセグメンテーションは、機械学習技術を使用して、LiDARポイントクラウド内のオブジェクトを自動的に分類する。オフロード環境におけるオブジェクトセグメンテーションを強化するために,LiDAR強度パラメータを活用することでこの問題に対処する。提案手法をRELLIS-3Dデータセットで評価し,mIoUを改良した「パドル」と「グラス」の予備解析として有望な結果を得た。
論文参考訳（メタデータ） (2024-01-02T21:27:43Z)
Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文参考訳（メタデータ） (2024-01-02T01:54:22Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
Evaluation of Large Language Models for Decision Making in Autonomous Driving [4.271294502084542]
自律走行にLarge Language Models (LLMs)を使用する一つの戦略は、周囲のオブジェクトを LLM にテキストプロンプトとして入力することである。このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。本研究は、自律運転の文脈におけるLLMの2つの能力について定量的に評価した。
論文参考訳（メタデータ） (2023-12-11T12:56:40Z)
Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文参考訳（メタデータ） (2023-10-31T10:57:35Z)
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文参考訳（メタデータ） (2023-10-04T17:59:49Z)
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-10-03T11:05:14Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。