論文の概要: Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2310.02251v2
- Date: Tue, 14 Nov 2023 14:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 18:14:03.109997
- Title: Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving
- Title(参考訳): talk2bev: 自律運転のための言語強調鳥眼図
- Authors: Tushar Choudhary, Vikrant Dewangan, Shivam Chandhok, Shubham
Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna
Murthy Jatavallabhula, K. Madhava Krishna
- Abstract要約: Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための視覚言語モデルインターフェースである。
汎用言語とビジョンモデルにおける最近の進歩と、BEV構造化マップ表現を融合させる。
本研究では,多数のシーン理解タスクにおいて,Talk2BEVを広範囲に評価する。
- 参考スコア(独自算出の注目度): 23.957306230979746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talk2BEV is a large vision-language model (LVLM) interface for bird's-eye
view (BEV) maps in autonomous driving contexts. While existing perception
systems for autonomous driving scenarios have largely focused on a pre-defined
(closed) set of object categories and driving scenarios, Talk2BEV blends recent
advances in general-purpose language and vision models with BEV-structured map
representations, eliminating the need for task-specific models. This enables a
single system to cater to a variety of autonomous driving tasks encompassing
visual and spatial reasoning, predicting the intents of traffic actors, and
decision-making based on visual cues. We extensively evaluate Talk2BEV on a
large number of scene understanding tasks that rely on both the ability to
interpret free-form natural language queries, and in grounding these queries to
the visual context embedded into the language-enhanced BEV map. To enable
further research in LVLMs for autonomous driving scenarios, we develop and
release Talk2BEV-Bench, a benchmark encompassing 1000 human-annotated BEV
scenarios, with more than 20,000 questions and ground-truth responses from the
NuScenes dataset.
- Abstract(参考訳): Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための大型視覚言語モデル(LVLM)インターフェースである。
既存の自動運転シナリオの認識システムは、オブジェクトカテゴリと駆動シナリオの事前定義された(閉じた)セットに重点を置いているが、talk2bevは、汎用言語とビジョンモデルの最近の進歩とbev構造化マップ表現を融合させ、タスク固有のモデルの必要性をなくしている。
これにより、単一のシステムは、視覚的および空間的推論、トラフィックアクターの意図の予測、視覚的手がかりに基づく意思決定を含む様々な自律運転タスクに対応できる。
我々は、自由形式の自然言語クエリを解釈する能力と、これらのクエリを言語拡張型BEVマップに埋め込まれた視覚的コンテキストに基盤付けることの両方に依存する、多数のシーン理解タスクに基づいて、Talk2BEVを広範囲に評価する。
自動運転シナリオのためのLVLMのさらなる研究を可能にするために、1,000人の人間によるBEVシナリオを含むベンチマークであるTalk2BEV-Benchを開発しリリースする。
関連論文リスト
- MTA: Multimodal Task Alignment for BEV Perception and Captioning [13.82751518921778]
Bird's Eye View (BEV)ベースの3D知覚は、自律運転アプリケーションにおいて重要な役割を果たす。
既存のアプローチでは、認識とキャプションを別々のタスクとして扱い、タスクの1つだけのパフォーマンスに焦点を当てている。
我々は,BEVの知覚とキャプションの双方を促進する,新しいマルチモーダルタスクアライメントフレームワークであるMTAを紹介する。
論文 参考訳(メタデータ) (2024-11-16T00:14:13Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - Navigation Instruction Generation with BEV Perception and Large Language Models [60.455964599187205]
本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。
具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。
パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文 参考訳(メタデータ) (2024-07-21T08:05:29Z) - Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data [3.1968751101341173]
トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。
最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測できることが示されている。
2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:57:22Z) - BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight [30.45553559416835]
我々は,視線を超越した正確な知覚のためにSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。
我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。
論文 参考訳(メタデータ) (2024-07-11T14:15:48Z) - BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。