論文の概要: LADY: Linear Attention for Autonomous Driving Efficiency without Transformers
- arxiv url: http://arxiv.org/abs/2512.15038v2
- Date: Thu, 18 Dec 2025 04:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 14:03:03.318668
- Title: LADY: Linear Attention for Autonomous Driving Efficiency without Transformers
- Title(参考訳): LADY:変圧器を使わずに自律運転効率を高めるリニアアテンション
- Authors: Jihao Huang, Xi Xia, Zhiyuan Li, Tianle Liu, Jingke Wang, Junbo Chen, Tengju Ye,
- Abstract要約: LADYは、エンドツーエンドの自動運転のための最初の完全線形注意に基づく生成モデルである。
本稿では,効率的な相互情報交換を実現する軽量な線形クロスアテンション機構を提案する。
このモデルはエッジデバイスにデプロイされ、検証され、リソース制限シナリオにおける実用性を示している。
- 参考スコア(独自算出の注目度): 12.89500537893449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end paradigms have demonstrated great potential for autonomous driving. Additionally, most existing methods are built upon Transformer architectures. However, transformers incur a quadratic attention cost, limiting their ability to model long spatial and temporal sequences-particularly on resource-constrained edge platforms. As autonomous driving inherently demands efficient temporal modeling, this challenge severely limits their deployment and real-time performance. Recently, linear attention mechanisms have gained increasing attention due to their superior spatiotemporal complexity. However, existing linear attention architectures are limited to self-attention, lacking support for cross-modal and cross-temporal interactions-both crucial for autonomous driving. In this work, we propose LADY, the first fully linear attention-based generative model for end-to-end autonomous driving. LADY enables fusion of long-range temporal context at inference with constant computational and memory costs, regardless of the history length of camera and LiDAR features. Additionally, we introduce a lightweight linear cross-attention mechanism that enables effective cross-modal information exchange. Experiments on the NAVSIM and Bench2Drive benchmarks demonstrate that LADY achieves state-of-the-art performance with constant-time and memory complexity, offering improved planning performance and significantly reduced computational cost. Additionally, the model has been deployed and validated on edge devices, demonstrating its practicality in resource-limited scenarios.
- Abstract(参考訳): エンドツーエンドのパラダイムは、自動運転に大きな可能性を示してきた。
さらに、既存のほとんどのメソッドはTransformerアーキテクチャ上に構築されています。
しかし、トランスフォーマーは、特に資源制約のあるエッジプラットフォーム上で、長い空間的および時間的シーケンスをモデル化する能力を制限するために、二次的な注意コストを発生させる。
自律運転は本質的に効率的な時間的モデリングを必要とするため、この課題はデプロイメントとリアルタイムのパフォーマンスを著しく制限する。
近年, 時空間の複雑さが優れているため, 線形注意機構が注目されている。
しかし、既存の線形アテンションアーキテクチャは自己注意に限られており、自律運転に不可欠なクロスモーダルとクロステンポラルの相互作用をサポートしていない。
本研究では、エンド・ツー・エンドの自律運転のための、最初の完全線形注意に基づく生成モデルであるLADYを提案する。
LADYは、カメラとLiDARの機能の歴史によらず、一定の計算コストとメモリコストで長距離時間コンテキストの融合を可能にする。
さらに,効率的なクロスモーダル情報交換を可能にする軽量な線形クロスアテンション機構を導入する。
NAVSIMとBench2Driveベンチマークの実験では、LADYは一定時間とメモリの複雑さで最先端のパフォーマンスを実現し、計画性能の向上と計算コストの大幅な削減を実現している。
さらに、このモデルはエッジデバイスにデプロイされ、検証され、リソース制限シナリオにおける実用性を示している。
関連論文リスト
- Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:17:18Z) - Lightweight Temporal Transformer Decomposition for Federated Autonomous Driving [11.79541267274746]
本稿では,大規模な注意図を小さな行列に分割することで,時系列画像フレームと時間的ステアリングデータを処理する手法を提案する。
このアプローチはモデルの複雑さを減らし、収束とリアルタイム予測の効率的な重み更新を可能にする。
3つのデータセットの実験により,本手法はリアルタイム性能を達成しつつ,明らかなマージンで近年の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-30T05:14:16Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。