論文の概要: ChatBEV: A Visual Language Model that Understands BEV Maps
- arxiv url: http://arxiv.org/abs/2503.13938v1
- Date: Tue, 18 Mar 2025 06:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:41.864699
- Title: ChatBEV: A Visual Language Model that Understands BEV Maps
- Title(参考訳): ChatBEV: BEVマップを理解するビジュアル言語モデル
- Authors: Qingyao Xu, Siheng Chen, Guang Chen, Yanfeng Wang, Ya Zhang,
- Abstract要約: 我々は137k以上の質問を含む新しいBEV VQAベンチマークであるChatBEV-QAを紹介する。
このベンチマークは、BEVマップ用のスケーラブルで情報性の高いVQAデータを生成する、新しいデータ収集パイプラインを使用して構築されている。
本稿では,ChatBEVが地図理解とテキスト対応ナビゲーションを支援する言語駆動の交通シーン生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 58.3005092762598
- License:
- Abstract: Traffic scene understanding is essential for intelligent transportation systems and autonomous driving, ensuring safe and efficient vehicle operation. While recent advancements in VLMs have shown promise for holistic scene understanding, the application of VLMs to traffic scenarios, particularly using BEV maps, remains under explored. Existing methods often suffer from limited task design and narrow data amount, hindering comprehensive scene understanding. To address these challenges, we introduce ChatBEV-QA, a novel BEV VQA benchmark contains over 137k questions, designed to encompass a wide range of scene understanding tasks, including global scene understanding, vehicle-lane interactions, and vehicle-vehicle interactions. This benchmark is constructed using an novel data collection pipeline that generates scalable and informative VQA data for BEV maps. We further fine-tune a specialized vision-language model ChatBEV, enabling it to interpret diverse question prompts and extract relevant context-aware information from BEV maps. Additionally, we propose a language-driven traffic scene generation pipeline, where ChatBEV facilitates map understanding and text-aligned navigation guidance, significantly enhancing the generation of realistic and consistent traffic scenarios. The dataset, code and the fine-tuned model will be released.
- Abstract(参考訳): 交通現場の理解は、インテリジェント交通システムと自律運転にとって不可欠であり、安全で効率的な車両運転を保証する。
近年のVLMの進歩は、全体像の理解を約束するものの、交通シナリオ、特にBEVマップを用いた交通シナリオへのVLMの適用はまだ検討中である。
既存の手法は、限られたタスク設計と限られたデータ量に悩まされ、包括的なシーン理解を妨げることが多い。
これらの課題に対処するために、我々はChatBEV-QAという新しいBEV VQAベンチマークを紹介した。
このベンチマークは、BEVマップ用のスケーラブルで情報性の高いVQAデータを生成する新しいデータ収集パイプラインを使用して構築される。
さらに、特殊な視覚言語モデルChatBEVを微調整し、多様な質問プロンプトを解釈し、関連するコンテキスト認識情報をBEVマップから抽出する。
さらに、ChatBEVは、地図理解とテキスト対応ナビゲーション誘導を容易にし、現実的で一貫した交通シナリオの生成を大幅に促進する、言語駆動の交通シーン生成パイプラインを提案する。
データセット、コード、微調整されたモデルがリリースされる。
関連論文リスト
- SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,自律運転に対するBEV(Bird's-eye view)の認識が注目されている。
我々は,複数の情報源からの情報を組み込んだ合成データ生成ツールであるSimBEVを紹介した。
我々はSimBEVデータセットを作成するためにSimBEVを使用します。
論文 参考訳(メタデータ) (2025-02-04T00:00:06Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Navigation Instruction Generation with BEV Perception and Large Language Models [60.455964599187205]
本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。
具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。
パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文 参考訳(メタデータ) (2024-07-21T08:05:29Z) - BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight [30.45553559416835]
我々は,視線を超越した正確な知覚のためにSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。
我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。
論文 参考訳(メタデータ) (2024-07-11T14:15:48Z) - Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving [23.957306230979746]
Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための視覚言語モデルインターフェースである。
汎用言語とビジョンモデルにおける最近の進歩と、BEV構造化マップ表現を融合させる。
本研究では,多数のシーン理解タスクにおいて,Talk2BEVを広範囲に評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:51Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。