論文の概要: VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion
- arxiv url: http://arxiv.org/abs/2502.18042v1
- Date: Tue, 25 Feb 2025 10:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:01.693606
- Title: VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion
- Title(参考訳): VLM-E2E:マルチモーダル運転注意融合によるエンドツーエンド自動運転の実現
- Authors: Pei Liu, Haipeng Liu, Haichao Liu, Xin Liu, Jinxin Ni, Jun Ma,
- Abstract要約: 本稿では、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークを提案する。
本手法は,テキスト表現をBird's-Eye-View (BEV) 機能に統合し,意味的管理を行う。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、最先端のアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.6565850326929485
- License:
- Abstract: Human drivers adeptly navigate complex scenarios by utilizing rich attentional semantics, but the current autonomous systems struggle to replicate this ability, as they often lose critical semantic information when converting 2D observations into 3D space. In this sense, it hinders their effective deployment in dynamic and complex environments. Leveraging the superior scene understanding and reasoning abilities of Vision-Language Models (VLMs), we propose VLM-E2E, a novel framework that uses the VLMs to enhance training by providing attentional cues. Our method integrates textual representations into Bird's-Eye-View (BEV) features for semantic supervision, which enables the model to learn richer feature representations that explicitly capture the driver's attentional semantics. By focusing on attentional semantics, VLM-E2E better aligns with human-like driving behavior, which is critical for navigating dynamic and complex environments. Furthermore, we introduce a BEV-Text learnable weighted fusion strategy to address the issue of modality importance imbalance in fusing multimodal information. This approach dynamically balances the contributions of BEV and text features, ensuring that the complementary information from visual and textual modality is effectively utilized. By explicitly addressing the imbalance in multimodal fusion, our method facilitates a more holistic and robust representation of driving environments. We evaluate VLM-E2E on the nuScenes dataset and demonstrate its superiority over state-of-the-art approaches, showcasing significant improvements in performance.
- Abstract(参考訳): しかし、現在の自律システムは、2D観察を3D空間に変換する際に重要な意味情報を失うことが多いため、この能力の再現に苦慮している。
この意味では、動的で複雑な環境への効果的なデプロイメントを妨げる。
視覚言語モデル(VLM)の優れたシーン理解と推論能力を活用し,視覚言語モデル(VLM)を用いた学習を支援する新しいフレームワークであるVLM-E2Eを提案する。
提案手法は,テキスト表現をBird's-Eye-View (BEV) 機能に統合し,運転者の注意的意味を明示的に捉えたよりリッチな特徴表現を学習する。
注意の意味論に焦点を当てることで、VLM-E2Eは人間のような運転行動と整合し、ダイナミックで複雑な環境をナビゲートするのに重要である。
さらに,BEV-Textで学習可能な重み付き融合戦略を導入し,マルチモーダル情報の融合におけるモダリティの重要度不均衡の問題に対処する。
このアプローチは、BEVとテキストの特徴の寄与を動的にバランスさせ、視覚的・テキスト的モダリティからの相補的な情報を効果的に活用することを保証する。
マルチモーダル核融合における不均衡に明示的に対処することにより、運転環境のより包括的で堅牢な表現を容易にする。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、最先端のアプローチよりも優れていることを示す。
関連論文リスト
- LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking [13.898774643126174]
LeapVADは、運転決定に影響を及ぼす重要な交通要素を特定し、焦点を合わせるための人間中心のメカニズムを実装している。
システムは、論理的推論を通じて駆動経験を蓄積する分析プロセス(System-II)と、微調整と少数ショット学習によってこの知識を洗練するヒューリスティックプロセス(System-I)から構成される。
論文 参考訳(メタデータ) (2025-01-14T14:49:45Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment [2.3575550107698016]
AV中心の時間的注意符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
マップとルートのコンテキストを理解するために,コンテキストマップの抽出にコンテキストエンコーダを用いる。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-12T02:34:44Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。