論文の概要: BEV-LLM: Leveraging Multimodal BEV Maps for Scene Captioning in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.19370v1
- Date: Fri, 25 Jul 2025 15:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.018623
- Title: BEV-LLM: Leveraging Multimodal BEV Maps for Scene Captioning in Autonomous Driving
- Title(参考訳): BEV-LLM: 自動運転におけるシーンキャプションのためのマルチモーダルBEVマップの活用
- Authors: Felix Brandstaetter, Erik Schuetz, Katharina Winter, Fabian Flohr,
- Abstract要約: 本稿では,自律走行シーンの3次元キャプションのための軽量モデルであるBEV-LLMを紹介する。
BEV-LLMは、小さな1Bパラメータベースモデルを使用しても、nuCaptionデータセット上での競合的なパフォーマンスを達成する。
さまざまな運転シナリオのシーンキャプションをよりよく評価する2つの新しいデータセットをリリースする。
- 参考スコア(独自算出の注目度): 3.061835990893183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving technology has the potential to transform transportation, but its wide adoption depends on the development of interpretable and transparent decision-making systems. Scene captioning, which generates natural language descriptions of the driving environment, plays a crucial role in enhancing transparency, safety, and human-AI interaction. We introduce BEV-LLM, a lightweight model for 3D captioning of autonomous driving scenes. BEV-LLM leverages BEVFusion to combine 3D LiDAR point clouds and multi-view images, incorporating a novel absolute positional encoding for view-specific scene descriptions. Despite using a small 1B parameter base model, BEV-LLM achieves competitive performance on the nuCaption dataset, surpassing state-of-the-art by up to 5\% in BLEU scores. Additionally, we release two new datasets - nuView (focused on environmental conditions and viewpoints) and GroundView (focused on object grounding) - to better assess scene captioning across diverse driving scenarios and address gaps in current benchmarks, along with initial benchmarking results demonstrating their effectiveness.
- Abstract(参考訳): 自動運転技術は交通を変革する可能性があるが、その普及は解釈可能かつ透明な意思決定システムの開発に依存している。
運転環境の自然言語記述を生成するシーンキャプションは,透明性,安全性,人間とAIの相互作用を促進する上で重要な役割を担っている。
本稿では,自律走行シーンの3次元キャプションのための軽量モデルであるBEV-LLMを紹介する。
BEV-LLMはBEVFusionを利用して3次元LiDAR点雲と多視点画像を組み合わせる。
BEV-LLMは、小さな1Bパラメータベースモデルを使用しても、nuCaptionデータセット上での競合性能を達成し、BLEUスコアの最大5倍の最先端を達成している。
さらに、環境条件と視点に焦点を当てたnuViewと、オブジェクトのグラウンディングに焦点を当てたGroundViewという2つの新しいデータセットをリリースしました。
関連論文リスト
- NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - MTA: Multimodal Task Alignment for BEV Perception and Captioning [13.25655273023121]
Bird's Eye View (BEV)ベースの3D知覚は、自律運転アプリケーションにおいて重要な役割を果たす。
既存のアプローチでは、知覚とキャプションを個別のタスクとして扱い、1つのタスクのみのパフォーマンスに焦点を当てている。
我々は,BEVの知覚とキャプションの双方を促進する,新しいマルチモーダルタスクアライメントフレームワークであるMTAを紹介する。
論文 参考訳(メタデータ) (2024-11-16T00:14:13Z) - Navigation Instruction Generation with BEV Perception and Large Language Models [60.455964599187205]
本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。
具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。
パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文 参考訳(メタデータ) (2024-07-21T08:05:29Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving [23.957306230979746]
Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための視覚言語モデルインターフェースである。
汎用言語とビジョンモデルにおける最近の進歩と、BEV構造化マップ表現を融合させる。
本研究では,多数のシーン理解タスクにおいて,Talk2BEVを広範囲に評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:51Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。