論文の概要: Early Goal-Guided Multi-Scale Fusion for Real-Time Vision-Language Driving
- arxiv url: http://arxiv.org/abs/2507.23042v1
- Date: Wed, 30 Jul 2025 19:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.620951
- Title: Early Goal-Guided Multi-Scale Fusion for Real-Time Vision-Language Driving
- Title(参考訳): リアルタイムビジョンランゲージ駆動のための早期ゴールガイド型マルチスケールフュージョン
- Authors: Santosh Patapati, Trisanth Srinivasan,
- Abstract要約: NovaDriveは、フロントカメライメージ、HDマップタイル、LiDAR深さ、テキストのウェイポイントを単一のブランチで処理する、単一ブランチの視覚言語アーキテクチャである。
軽量で2段階のクロスアテンションブロックは、最初にウェイポイントトークンをHDマップと整列させ、その後、きめ細かい画像や奥行きのパッチに注意を向ける。
視覚言語バックボーンの上位15層を微調整し、リアルタイムの推論を可能にします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous vehicles must react in milliseconds while reasoning about road geometry and traffic intent to navigate complex situations. We introduce NovaDrive, a single-branch vision-language architecture that processes front-camera images, HD-map tiles, LiDAR depth, and textual waypoints in a single branch. A lightweight, two-stage cross-attention block first aligns waypoint tokens with the HD map, then refines attention over fine-grained image and depth patches. Coupled with a novel smoothness loss that discourages abrupt steering and speed changes, this design eliminates the need for recurrent memory. We fine-tune the top 15 layers of an 11B LLaMA-3.2 vision-language backbone, enabling real-time inference. On the nuScenes / Waymo subset of the MD-NEX Outdoor benchmark, NovaDrive raises success rate to 84% (+4%), boosts path-efficiency (SPL) to 0.66 (+0.11), and reduces collision frequency from 2.6% to 1.2% (-1.4%) relative to the previous state-of-the-art. Our ablations confirm that waypoint tokens, partial VLM fine-tuning, and the cross-attention fusion each contribute the most to these gains. Beyond safety, NovaDrive's shorter routes (resulting from the novel smoothness loss) translate to lower fuel or battery usage, pointing toward leaner, more easily updated driving stacks. NovaDrive can be extended to other embodied-AI domains as well.
- Abstract(参考訳): 自動運転車は、複雑な状況をナビゲートするための道路形状と交通意図を推論しながら、ミリ秒で反応しなければなりません。
我々は、フロントカメライメージ、HDマップタイル、LiDAR深度、テキストのウェイポイントを単一のブランチで処理する、単一ブランチの視覚言語アーキテクチャであるNovaDriveを紹介した。
軽量で2段階のクロスアテンションブロックは、最初にウェイポイントトークンをHDマップと整列させ、その後、きめ細かい画像や奥行きのパッチに注意を向ける。
突然のステアリングや速度変化を回避できる新しいスムーズネス損失と組み合わせることで、この設計は繰り返しメモリの必要性を排除している。
11B LLaMA-3.2視覚言語バックボーンの上位15層を微調整し、リアルタイム推論を可能にします。
MD-NEX OutdoorベンチマークのnuScenes/Waymoサブセットでは、NovaDriveは成功率を84%(+4%)に引き上げ、パス効率(SPL)を0.66(+0.11)に引き上げ、衝突頻度を以前の最先端と比較して2.6%から1.2%(-1.4%)に下げる。
我々のアブリケーションは、ウェイポイントトークン、部分的なVLM微調整、および相互注意融合がこれらの利得に最も寄与していることを確認します。
安全以外に、NovaDriveの短いルート(新しいスムーズな損失から)は燃料やバッテリーの使用量を減らし、よりリーンでより簡単に更新された運転スタックを指し示している。
NovaDriveは他の組み込みAIドメインにも拡張できる。
関連論文リスト
- Vision-Language Fusion for Real-Time Autonomous Driving: Goal-Centered Cross-Attention of Camera, HD-Map, & Waypoints [0.0]
XYZ-Driveは、フロントカメラフレームを読み、25m$times$25mのオーバーヘッドマップと次のウェイポイントを出力し、ステアリングとスピードを出力する単一の視覚言語モデルである。
軽量な目標中心のクロスアテンション層では、融合トークンが部分的に微調整されたLLaMA-3.2 11Bモデルに入る前に、ウェイポイントトークンが関連する画像とマップパッチをハイライトすることができる。
論文 参考訳(メタデータ) (2025-07-30T19:51:23Z) - HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios [3.4075144411363034]
本稿では,認知にインスパイアされた高速スローアーキテクチャの遅い分岐を実装するエンドツーエンド駆動フレームワークであるHaoMo Vision-Language Model(HMVLM)を紹介する。
高速コントローラは低レベルのステアリング、スロットル、ブレーキコマンドを出力し、遅いプランナー、大きな視覚言語モデルでは、遅延を伴わずに「歩行者への利益」や「トラックの後にマージ」のような高レベルのインテントを生成する。
論文 参考訳(メタデータ) (2025-06-06T08:51:06Z) - FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning [66.5214586624095]
既存のVisual Autoregressive (VAR)パラダイムは、各スケールステップでトークンマップ全体を処理し、複雑性と実行時のスケーリングを画像の解像度で劇的に向上させる。
VARを用いた効率的な解像度スケーリングのための訓練後高速化手法であるFastmoreを提案する。
実験によると、FastmoreはFlashAttention-accelerated VARをさらに2.7$times$でスピードアップでき、パフォーマンスは1%低下した。
論文 参考訳(メタデータ) (2025-03-30T08:51:19Z) - Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving [0.0]
SSRは16個のナビゲーション誘導トークンのみをスパースシーン表現として利用する新しいフレームワークである。
提案手法は,人間設計による教師付きサブタスクの必要性を排除し,計算資源が必須要素に集中できるようにする。
SSRはL2エラーを27.2%減少させ、nuScenesでは51.6%の衝突速度をUniADに還元し、10.9$times$高速推論速度と13$times$高速トレーニングタイムを達成している。
論文 参考訳(メタデータ) (2024-09-26T23:30:48Z) - Prior Based Online Lane Graph Extraction from Single Onboard Camera
Image [133.68032636906133]
単眼カメラ画像からレーングラフをオンラインに推定する。
前者は、トランスフォーマーベースのWasserstein Autoencoderを通じてデータセットから抽出される。
オートエンコーダは、最初のレーングラフ推定を強化するために使用される。
論文 参考訳(メタデータ) (2023-07-25T08:58:26Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。