論文の概要: Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance
- arxiv url: http://arxiv.org/abs/2508.01057v2
- Date: Tue, 12 Aug 2025 12:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 14:32:16.158043
- Title: Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance
- Title(参考訳): リアルタイム自動車事故回避のためのビジョン言語モデル(VLM)を用いたエッジベースマルチモーダルセンサデータフュージョン
- Authors: Fengze Yang, Bo Yu, Yang Zhou, Xuewen Luo, Zhengzhong Tu, Chenxi Liu,
- Abstract要約: 本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
- 参考スコア(独自算出の注目度): 12.513296074529727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving (AD) systems relying solely on onboard sensors may fail to detect distant or obstacle hazards, potentially causing preventable collisions; however, existing transformer-based Vehicle-to-Everything (V2X) approaches, which mitigate AD sensing limitations, either lack effective multimodal fusion and reasoning or struggle to meet real-time performance requirements under complex, high-dimensional traffic conditions. This paper proposes the Real-time Edge-based Autonomous Co-pilot Trajectory planner (REACT), a V2X-integrated trajectory optimization framework for AD based on a fine-tuned lightweight Vision-Language Model (VLM). REACT integrates infrastructure-provided hazard alerts with onboard sensor data, capturing intricate surrounding traffic dynamics and vehicle intents through visual embeddings, interpreting precise numerical data from symbolic inputs, and employing contextual reasoning to generate optimized, safety-oriented trajectories. To ensure robust real-time deployment on edge devices, REACT innovatively employs Residual Trajectory Fusion (RTF) design and specialized edge-adaptation strategies to reduce model complexity and improve inference efficiency. Evaluated on the DeepAccident benchmark, REACT achieves state-of-the-art performance, a 77% collision rate reduction, a 48.2% Video Panoptic Quality (VPQ), and a 0.57-second inference latency on the Jetson AGX Orin. Ablation studies validate the contribution of each input, module, and edge adaptation strategy. These results highlight the effectiveness of lightweight VLMs in enabling real-time cooperative planning on edge platforms and underscore the potential of language-guided contextual reasoning for improving traffic safety and responsiveness.
- Abstract(参考訳): 自動走行(AD)システムは搭載センサーのみに依存しており、遠隔または障害物の危険を検知できず、予防可能な衝突を引き起こす可能性があるが、既存のトランスフォーマーベースのV2X(V2X)アプローチはAD感知の制限を緩和し、効果的なマルチモーダル融合と推論を欠いているか、複雑な高次元の交通条件下でリアルタイムのパフォーマンス要求を満たすのに苦労している。
本稿では,V2X統合軌道最適化フレームワークであるReal-time Edge-based Autonomous Co-pilot Trajectory Planner (REACT)を提案する。
REACTは、インフラストラクチャが提供する危険警報をオンボードセンサーのデータと統合し、視覚的な埋め込みを通じて周囲の複雑な交通力学と車両意図をキャプチャし、シンボル入力から正確な数値データを解釈し、コンテキスト推論を使用して、最適化された安全指向の軌道を生成する。
エッジデバイス上での堅牢なリアルタイムデプロイメントを保証するため、REACTはResidual Trajectory Fusion (RTF)の設計と、モデルの複雑さを低減し、推論効率を向上させるための特別なエッジ適応戦略を革新的に採用している。
DeepAccidentベンチマークで評価されたREACTは、最先端のパフォーマンス、77%の衝突率の削減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
アブレーション研究は、各入力、モジュール、エッジ適応戦略の寄与を検証する。
これらの結果は、エッジプラットフォーム上でのリアルタイム協調計画の実現における軽量VLMの有効性を強調し、交通安全と応答性を改善するための言語誘導型文脈推論の可能性を強調した。
関連論文リスト
- Research Challenges and Progress in the End-to-End V2X Cooperative Autonomous Driving Competition [57.698383942708]
車両間通信(V2X)は、知覚範囲を拡大し運転安全性を高めるための重要な手段となっている。
我々は,協調的時間知覚と協調的エンドツーエンド計画という2つのトラックを特徴とする,V2X協力によるエンドツーエンド自律運転を組織した。
本稿では,バンド幅認識融合,堅牢なマルチエージェント計画,異種センサ統合といった重要な研究課題を取り上げ,課題の設計と成果について述べる。
論文 参考訳(メタデータ) (2025-07-29T09:06:40Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - V2X-UniPool: Unifying Multimodal Perception and Knowledge Reasoning for Autonomous Driving [13.181643929201666]
V2X-UniPoolは、マルチモーダルなV2X(Valby-to-Everything)データをタイムインデックスと言語ベースのナレッジプールに統合する統合フレームワークである。
我々のシステムでは,静的環境と動的トラフィックコンテキストの両方に対して,ADが正確かつ時間的に一貫した推論を行うことができる。
論文 参考訳(メタデータ) (2025-06-03T08:00:57Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback [15.55944950850973]
FASIONADは、VLMベースの推論モジュールで高速なエンドツーエンドプランナーをシナジする、新しいデュアルシステムフレームワークである。
オープンループ実験では、FASIONADは平均$L2$軌道誤差を6.7%削減し、28.1%$衝突率を下げる。
論文 参考訳(メタデータ) (2025-03-11T08:27:01Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
自動車間協力(V2X)は、古典的な自動運転の認識限界を克服するための有望なパラダイムとして浮上している。
本稿では、視覚言語モデル(VLM)に基づく新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
論文 参考訳(メタデータ) (2024-08-17T16:42:13Z) - Unified End-to-End V2X Cooperative Autonomous Driving [21.631099800753795]
UniE2EV2Xは、V2Xに統合されたエンドツーエンドの自動運転システムで、主要な駆動モジュールを統合ネットワーク内で統合する。
このフレームワークは変形可能な注意ベースのデータ融合戦略を採用し、車とインフラの協調を効果的に促進する。
We implement the UniE2EV2X framework on the challenge DeepAccident, a simulation dataset designed for V2X collaborative driving。
論文 参考訳(メタデータ) (2024-05-07T03:01:40Z) - NLOS Dies Twice: Challenges and Solutions of V2X for Cooperative
Perception [7.819255257787961]
本稿では,高速なセンサフュージョンマッチング手順とモビリティハイトハイブリッドリレー決定手順のための抽象的認識行列マッチング手法を提案する。
提案手法の有効性を実証するため,自律走行,センサ融合,V2X通信全般を考慮した新しいシミュレーションフレームワークを設計した。
論文 参考訳(メタデータ) (2023-07-13T08:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。