論文の概要: DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2411.13112v1
- Date: Wed, 20 Nov 2024 08:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:49.402853
- Title: DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
- Title(参考訳): DriveMLLM: 自律運転における多モード大言語モデルを用いた空間的理解のためのベンチマーク
- Authors: Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Chenming Zhang, Shuai Liu, Long Chen,
- Abstract要約: 自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。
DriveMLLMには2,734個の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。
我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
- 参考スコア(独自算出の注目度): 13.115027801151484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving requires a comprehensive understanding of 3D environments to facilitate high-level tasks such as motion prediction, planning, and mapping. In this paper, we introduce DriveMLLM, a benchmark specifically designed to evaluate the spatial understanding capabilities of multimodal large language models (MLLMs) in autonomous driving. DriveMLLM includes 2,734 front-facing camera images and introduces both absolute and relative spatial reasoning tasks, accompanied by linguistically diverse natural language questions. To measure MLLMs' performance, we propose novel evaluation metrics focusing on spatial understanding. We evaluate several state-of-the-art MLLMs on DriveMLLM, and our results reveal the limitations of current models in understanding complex spatial relationships in driving contexts. We believe these findings underscore the need for more advanced MLLM-based spatial reasoning methods and highlight the potential for DriveMLLM to drive further research in autonomous driving. Code will be available at \url{https://github.com/XiandaGuo/Drive-MLLM}.
- Abstract(参考訳): 自律運転は、モーション予測、計画、マッピングといった高度なタスクを促進するために、3D環境を包括的に理解する必要がある。
本稿では,自律運転におけるマルチモーダル大規模言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。
DriveMLLMには2,734個の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。
MLLMの性能を評価するために,空間的理解に着目した新しい評価指標を提案する。
我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
これらの知見は、より高度なMLLMに基づく空間推論手法の必要性を浮き彫りにして、DriveMLLMが自動運転のさらなる研究を促進する可能性を強調している。
コードは \url{https://github.com/XiandaGuo/Drive-MLLM} で入手できる。
関連論文リスト
- SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - APR-Transformer: Initial Pose Estimation for Localization in Complex Environments through Absolute Pose Regression [3.2584852202495806]
本稿では,最先端の手法に触発されたモデルアーキテクチャであるAPR-Transformerを紹介する。
提案手法は,確立したベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-14T13:06:42Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - DriVLM: Domain Adaptation of Vision-Language Models in Autonomous Driving [20.644133177870852]
マルチモーダル大言語モデル(MLLM)は、画像、ビデオ、音声、テキストなど、複数のモダリティを組み合わせることができる。
ほとんどのMLLMは高い計算資源を必要としており、ほとんどの研究者や開発者にとって大きな課題である。
本稿では,小型MLLMの実用性について検討し,小型MLLMを自律運転分野に適用した。
論文 参考訳(メタデータ) (2025-01-09T09:02:41Z) - MLLM-SUL: Multimodal Large Language Model for Semantic Scene Understanding and Localization in Traffic Scenarios [10.353093987945012]
マルチモーダル大規模言語モデル(MLLM)は、多くの自律運転タスクにおいて満足な効果を示している。
本稿では,MLLMを用いて,協調的セマンティック・シーン理解とリスク・ローカライゼーションの課題を解決する。
本手法はシーン理解タスクにおいて,80.1%のBLEU-1スコア,298.5%のCIDErスコア,59.6%の精度を達成している。
論文 参考訳(メタデータ) (2024-12-27T02:05:38Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。
本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文 参考訳(メタデータ) (2024-10-20T04:36:19Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Off-Road LiDAR Intensity Based Semantic Segmentation [11.684330305297523]
学習ベースのLiDARセマンティックセグメンテーションは、機械学習技術を使用して、LiDARポイントクラウド内のオブジェクトを自動的に分類する。
オフロード環境におけるオブジェクトセグメンテーションを強化するために,LiDAR強度パラメータを活用することでこの問題に対処する。
提案手法をRELLIS-3Dデータセットで評価し,mIoUを改良した「パドル」と「グラス」の予備解析として有望な結果を得た。
論文 参考訳(メタデータ) (2024-01-02T21:27:43Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Evaluation of Large Language Models for Decision Making in Autonomous
Driving [4.271294502084542]
自律走行にLarge Language Models (LLMs)を使用する一つの戦略は、周囲のオブジェクトを LLM にテキストプロンプトとして入力することである。
このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。
本研究は、自律運転の文脈におけるLLMの2つの能力について定量的に評価した。
論文 参考訳(メタデータ) (2023-12-11T12:56:40Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-03T11:05:14Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。