Fugu-MT 論文翻訳(概要): Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving

論文の概要: Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving

arxiv url: http://arxiv.org/abs/2310.02251v2
Date: Tue, 14 Nov 2023 14:46:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 18:14:03.109997
Title: Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving
Title（参考訳）: talk2bev: 自律運転のための言語強調鳥眼図
Authors: Tushar Choudhary, Vikrant Dewangan, Shivam Chandhok, Shubham Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna Murthy Jatavallabhula, K. Madhava Krishna
Abstract要約: Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための視覚言語モデルインターフェースである。汎用言語とビジョンモデルにおける最近の進歩と、BEV構造化マップ表現を融合させる。本研究では,多数のシーン理解タスクにおいて,Talk2BEVを広範囲に評価する。
参考スコア（独自算出の注目度）: 23.957306230979746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talk2BEV is a large vision-language model (LVLM) interface for bird's-eye view (BEV) maps in autonomous driving contexts. While existing perception systems for autonomous driving scenarios have largely focused on a pre-defined (closed) set of object categories and driving scenarios, Talk2BEV blends recent advances in general-purpose language and vision models with BEV-structured map representations, eliminating the need for task-specific models. This enables a single system to cater to a variety of autonomous driving tasks encompassing visual and spatial reasoning, predicting the intents of traffic actors, and decision-making based on visual cues. We extensively evaluate Talk2BEV on a large number of scene understanding tasks that rely on both the ability to interpret free-form natural language queries, and in grounding these queries to the visual context embedded into the language-enhanced BEV map. To enable further research in LVLMs for autonomous driving scenarios, we develop and release Talk2BEV-Bench, a benchmark encompassing 1000 human-annotated BEV scenarios, with more than 20,000 questions and ground-truth responses from the NuScenes dataset.
Abstract（参考訳）: Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための大型視覚言語モデル(LVLM)インターフェースである。既存の自動運転シナリオの認識システムは、オブジェクトカテゴリと駆動シナリオの事前定義された(閉じた)セットに重点を置いているが、talk2bevは、汎用言語とビジョンモデルの最近の進歩とbev構造化マップ表現を融合させ、タスク固有のモデルの必要性をなくしている。これにより、単一のシステムは、視覚的および空間的推論、トラフィックアクターの意図の予測、視覚的手がかりに基づく意思決定を含む様々な自律運転タスクに対応できる。我々は、自由形式の自然言語クエリを解釈する能力と、これらのクエリを言語拡張型BEVマップに埋め込まれた視覚的コンテキストに基盤付けることの両方に依存する、多数のシーン理解タスクに基づいて、Talk2BEVを広範囲に評価する。自動運転シナリオのためのLVLMのさらなる研究を可能にするために、1,000人の人間によるBEVシナリオを含むベンチマークであるTalk2BEV-Benchを開発しリリースする。

関連論文リスト

ChatBEV: A Visual Language Model that Understands BEV Maps [58.3005092762598]
我々は137k以上の質問を含む新しいBEV VQAベンチマークであるChatBEV-QAを紹介する。このベンチマークは、BEVマップ用のスケーラブルで情報性の高いVQAデータを生成する、新しいデータ収集パイプラインを使用して構築されている。本稿では,ChatBEVが地図理解とテキスト対応ナビゲーションを支援する言語駆動の交通シーン生成パイプラインを提案する。
論文参考訳（メタデータ） (2025-03-18T06:12:38Z)
NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文参考訳（メタデータ） (2025-03-17T03:12:39Z)
BEVDriver: Leveraging BEV Maps in LLMs for Robust Closed-Loop Driving [0.5735035463793009]
大規模言語モデル(LLM)には推論能力と自然言語理解がある。 CARLAにおける終端閉ループ駆動のためのLLMモデルであるBEVDriverを紹介する。 LangAutoベンチマークでは、私たちのモデルはSoTAの手法と比較して、ドライビングスコアで最大18.9%高いパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-03-05T00:27:32Z)
SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,BEV(Bird's-eye view)の認識は自律運転において大きな注目を集めている。 SimBEVは、広範囲にスケーラブルでスケーラブルなランダム化された合成データ生成ツールである。 SimBEVは、さまざまな運転シナリオからの注釈付き知覚データの大規模なコレクションであるSimBEVデータセットを作成するために使用される。
論文参考訳（メタデータ） (2025-02-04T00:00:06Z)
MTA: Multimodal Task Alignment for BEV Perception and Captioning [13.82751518921778]
Bird's Eye View (BEV)ベースの3D知覚は、自律運転アプリケーションにおいて重要な役割を果たす。既存のアプローチでは、認識とキャプションを別々のタスクとして扱い、タスクの1つだけのパフォーマンスに焦点を当てている。我々は,BEVの知覚とキャプションの双方を促進する,新しいマルチモーダルタスクアライメントフレームワークであるMTAを紹介する。
論文参考訳（メタデータ） (2024-11-16T00:14:13Z)
VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文参考訳（メタデータ） (2024-11-03T16:09:47Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文参考訳（メタデータ） (2024-07-31T02:35:33Z)
Navigation Instruction Generation with BEV Perception and Large Language Models [60.455964599187205]
本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文参考訳（メタデータ） (2024-07-21T08:05:29Z)
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data [3.1968751101341173]
トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測できることが示されている。 2つの大規模クラウドソースマッピングプラットフォームを利用することで,よりスケーラブルなマップ予測手法が実現可能であることを示す。
論文参考訳（メタデータ） (2024-07-11T17:57:22Z)
BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight [30.45553559416835]
我々は,視線を超越した正確な知覚のためにSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。
論文参考訳（メタデータ） (2024-07-11T14:15:48Z)
BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文参考訳（メタデータ） (2024-07-08T07:26:08Z)
Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文参考訳（メタデータ） (2024-01-02T01:54:22Z)
Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文参考訳（メタデータ） (2023-01-11T18:39:34Z)
Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文参考訳（メタデータ） (2022-09-12T15:29:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。