論文の概要: Vision-Language Fusion for Real-Time Autonomous Driving: Goal-Centered Cross-Attention of Camera, HD-Map, & Waypoints
- arxiv url: http://arxiv.org/abs/2507.23064v1
- Date: Wed, 30 Jul 2025 19:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.627782
- Title: Vision-Language Fusion for Real-Time Autonomous Driving: Goal-Centered Cross-Attention of Camera, HD-Map, & Waypoints
- Title(参考訳): リアルタイム自動運転のためのビジョン・ランゲージ・フュージョン:カメラ、HDマップ、ウェイポイントのゴール中心のクロスアテンション
- Authors: Santosh Patapati, Trisanth Srinivasan, Murari Ambati,
- Abstract要約: XYZ-Driveは、フロントカメラフレームを読み、25m$times$25mのオーバーヘッドマップと次のウェイポイントを出力し、ステアリングとスピードを出力する単一の視覚言語モデルである。
軽量な目標中心のクロスアテンション層では、融合トークンが部分的に微調整されたLLaMA-3.2 11Bモデルに入る前に、ウェイポイントトークンが関連する画像とマップパッチをハイライトすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous cars need geometric accuracy and semantic understanding to navigate complex environments, yet most stacks handle them separately. We present XYZ-Drive, a single vision-language model that reads a front-camera frame, a 25m $\times$ 25m overhead map, and the next waypoint, then outputs steering and speed. A lightweight goal-centered cross-attention layer lets waypoint tokens highlight relevant image and map patches, supporting both action and textual explanations, before the fused tokens enter a partially fine-tuned LLaMA-3.2 11B model. On the MD-NEX Outdoor-Driving benchmark XYZ-Drive attains 95% success and 0.80 Success weighted by Path Length (SPL), surpassing PhysNav-DG by 15%. and halving collisions, all while significantly improving efficiency by using only a single branch. Sixteen ablations explain the gains. Removing any modality (vision, waypoint, map) drops success by up to 11%, confirming their complementary roles and rich connections. Replacing goal-centered attention with simple concatenation cuts 3% in performance, showing query-based fusion injects map knowledge more effectively. Keeping the transformer frozen loses 5%, showing the importance of fine-tuning when applying VLMs for specific tasks such as autonomous driving. Coarsening map resolution from 10 cm to 40 cm blurs lane edges and raises crash rate. Overall, these results demonstrate that early, token-level fusion of intent and map layout enables accurate, transparent, real-time driving.
- Abstract(参考訳): 自律走行車は複雑な環境をナビゲートするために幾何学的精度と意味理解を必要とするが、ほとんどのスタックはそれらを別々に扱う。
XYZ-Driveは、フロントカメラフレームを読み、25m$\times$25mのオーバーヘッドマップと次のウェイポイントを出力し、ステアリングとスピードを出力する単一の視覚言語モデルである。
軽量なゴール中心のクロスアテンション層は、ウェイポイントトークンが関連する画像とマップパッチをハイライトし、融合トークンが部分的に微調整されたLLaMA-3.2 11Bモデルに入る前に、アクションとテキストの説明の両方をサポートする。
MD-NEXのアウトドア駆動ベンチマークXYZ-Driveは95%成功し、パス長(SPL)は0.80成功し、PhysNav-DGを15%上回った。
衝突を半分にし 1本の枝だけを使って 効率を大幅に向上させます
16の格言が利得を説明する。
あらゆるモダリティ(ビジョン、ウェイポイント、マップ)を取り除くと、成功率は最大11%減少し、補完的な役割と豊富なつながりが確認される。
単純な結合によるゴール中心の注意の置き換えはパフォーマンスを3%削減し、クエリベースの融合がマップ知識をより効果的に注入することを示す。
変圧器の凍結は5%減少し、自律運転などの特定のタスクにVLMを適用する際には微調整が重要となる。
10cmから40cmまでの粗い地図解像度は、レーンエッジをぼかし、クラッシュ率を上げる。
これらの結果は,早期のトークンレベルのインテントとマップレイアウトの融合によって,正確で透明でリアルタイムな運転が可能になることを実証している。
関連論文リスト
- Early Goal-Guided Multi-Scale Fusion for Real-Time Vision-Language Driving [0.0]
NovaDriveは、フロントカメライメージ、HDマップタイル、LiDAR深さ、テキストのウェイポイントを単一のブランチで処理する、単一ブランチの視覚言語アーキテクチャである。
軽量で2段階のクロスアテンションブロックは、最初にウェイポイントトークンをHDマップと整列させ、その後、きめ細かい画像や奥行きのパッチに注意を向ける。
視覚言語バックボーンの上位15層を微調整し、リアルタイムの推論を可能にします。
論文 参考訳(メタデータ) (2025-07-30T19:12:42Z) - RoadRunner M&M -- Learning Multi-range Multi-resolution Traversability Maps for Autonomous Off-road Navigation [12.835198004089385]
RoadRunner (M&M) はエンドツーエンドの学習ベースのフレームワークで、さまざまな範囲のトレーバービリティと標高マップを直接予測する。
RoadRunner M&Mは、標高マッピングで最大50%の大幅な改善と、RoadRunner上でのトラバーサビリティ推定で30%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-09-17T07:21:03Z) - Prior Based Online Lane Graph Extraction from Single Onboard Camera
Image [133.68032636906133]
単眼カメラ画像からレーングラフをオンラインに推定する。
前者は、トランスフォーマーベースのWasserstein Autoencoderを通じてデータセットから抽出される。
オートエンコーダは、最初のレーングラフ推定を強化するために使用される。
論文 参考訳(メタデータ) (2023-07-25T08:58:26Z) - SuperFusion: Multilevel LiDAR-Camera Fusion for Long-Range HD Map Generation [13.840020080021292]
我々は,複数のレベルでLiDARとカメラデータの融合を利用したSuperFusionという新しいネットワークを提案する。
我々は、nuScenesデータセットと自己記録データセットでSuperFusionをベンチマークし、最先端のベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-28T18:59:02Z) - TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving [46.409930329699336]
本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
我々は、CARLA都市運転シミュレータの公式リーダーボードと同様に、長いルートと密集した交通量を持つ挑戦的な新しいベンチマークにおいて、その効果を実験的に検証した。
論文 参考訳(メタデータ) (2022-05-31T17:57:19Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and
Interaction Space Graph Reasoning for Autonomous Driving [64.10636296274168]
道路抽出は、自律航法システムを構築するための重要なステップである。
この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、画像内の道路セグメント間の遠い依存関係をキャプチャする非効率であるため、効果がない。
本研究では,ConvNetに接続した時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフの推論を行う空間空間グラフ推論(SPIN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-09-16T03:52:17Z) - DAGMapper: Learning to Map by Discovering Lane Topology [84.12949740822117]
我々は、分岐とマージによるトポロジー変化を含む多くのレーンを持つ複雑な高速道路のレーン境界を描くことに集中する。
グラフのノードがレーン境界の局所領域の幾何学的および位相的特性を符号化する有向非巡回グラフィカルモデル(DAG)における推論として問題を定式化する。
2つの異なる州における2つの幹線道路における我々のアプローチの有効性を示し、高い精度とリコールと89%の正しいトポロジーを示す。
論文 参考訳(メタデータ) (2020-12-22T21:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。