論文の概要: BEV-VLM: Trajectory Planning via Unified BEV Abstraction
- arxiv url: http://arxiv.org/abs/2509.25249v1
- Date: Sat, 27 Sep 2025 07:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.202715
- Title: BEV-VLM: Trajectory Planning via Unified BEV Abstraction
- Title(参考訳): BEV-VLM:統一BEV抽象化による軌道計画
- Authors: Guancheng Chen, Sheng Yang, Tong Zhan, Jian Wang,
- Abstract要約: 本稿では,VLM(Vision-Language Models)とBird's-Eye View(BEV)機能マップを視覚入力として活用する,自律走行における軌道計画のための新しいフレームワークを提案する。
本手法では,マルチモーダルセンサデータ(カメラやLiDARなど)を融合し,それらをHDマップに整列させることにより,高度に圧縮された情報的BEV表現を利用する。
nuScenesデータセットの実験結果は、計画精度と完全な衝突回避の44.8%の改善を示している。
- 参考スコア(独自算出の注目度): 6.603679803036061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces BEV-VLM, a novel framework for trajectory planning in autonomous driving that leverages Vision-Language Models (VLMs) with Bird's-Eye View (BEV) feature maps as visual inputs. Unlike conventional approaches that rely solely on raw visual data such as camera images, our method utilizes highly compressed and informative BEV representations, which are generated by fusing multi-modal sensor data (e.g., camera and LiDAR) and aligning them with HD Maps. This unified BEV-HD Map format provides a geometrically consistent and rich scene description, enabling VLMs to perform accurate trajectory planning. Experimental results on the nuScenes dataset demonstrate 44.8% improvements in planning accuracy and complete collision avoidance. Our work highlights that VLMs can effectively interpret processed visual representations like BEV features, expanding their applicability beyond raw images in trajectory planning.
- Abstract(参考訳): 本稿では,VLM(Vision-Language Models)とBird's-Eye View(Bird's-Eye View)の機能マップを視覚入力として活用した,自律走行における軌道計画の新しいフレームワークであるBEV-VLMを紹介する。
カメラ画像などの生の視覚データにのみ依存する従来の手法とは異なり、本手法では、マルチモーダルセンサデータ(例えば、カメラやLiDAR)を融合させてHDマップに整列させて生成する、高度に圧縮された情報的BEV表現を利用する。
この統合されたBEV-HD Mapフォーマットは、幾何学的に一貫したリッチなシーン記述を提供し、VLMが正確な軌道計画を実行できるようにする。
nuScenesデータセットの実験結果は、計画精度と完全な衝突回避の44.8%の改善を示している。
我々の研究は、VLMがBEV機能のような処理された視覚的表現を効果的に解釈し、軌道計画において生画像を超えて適用性を拡張することを強調している。
関連論文リスト
- SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,BEV(Bird's-eye view)の認識は自律運転において大きな注目を集めている。
SimBEVは、広範囲にスケーラブルでスケーラブルなランダム化された合成データ生成ツールである。
SimBEVは、さまざまな運転シナリオからの注釈付き知覚データの大規模なコレクションであるSimBEVデータセットを作成するために使用される。
論文 参考訳(メタデータ) (2025-02-04T00:00:06Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data [3.1968751101341173]
トップダウンのBird's Eye View (BEV)マップは地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測することが約束されているが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限られている。
2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:57:22Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - BEV-MODNet: Monocular Camera based Bird's Eye View Moving Object
Detection for Autonomous Driving [2.9769485817170387]
CNNは、現場のグローバルコンテキストを活用して、より良いプロジェクトを作成することができる。
我々は、BEV空間内で5つのクラスを移動するオブジェクトマスクのアノテーションを備えた12.9k画像からなる拡張KITTI-rawデータセットを作成する。
簡単なベースライン実装を用いてmIoUの13%の大幅な改善を観測した。
論文 参考訳(メタデータ) (2021-07-11T01:11:58Z) - Multi-View Fusion of Sensor Data for Improved Perception and Prediction
in Autonomous Driving [11.312620949473938]
本稿では,LiDARとカメラ画像の多視点表現を用いた物体検出と軌跡予測のエンドツーエンド手法を提案する。
我々のモデルは最先端のBird's-Eye View(BEV)ネットワーク上に構築され、歴史的なLiDARデータからボキセル化された特徴を融合する。
我々は、このモデルを、ネイティブな非量子化表現で生のLiDAR情報を使用する追加のLiDAR Range-View (RV)機能で拡張する。
論文 参考訳(メタデータ) (2020-08-27T03:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。