論文の概要: What Matters for Scalable and Robust Learning in End-to-End Driving Planners?
- arxiv url: http://arxiv.org/abs/2603.15185v1
- Date: Mon, 16 Mar 2026 12:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.210158
- Title: What Matters for Scalable and Robust Learning in End-to-End Driving Planners?
- Title(参考訳): エンド・ツー・エンドの計画立案者にとって、スケーラブルでロバストな学習とは何か?
- Authors: David Holtz, Niklas Hanselmann, Simon Doll, Marius Cordts, Bernt Schiele,
- Abstract要約: クローズドループ性能に対するアーキテクチャパターンの影響を再検討する。
私たちは、軽量でスケーラブルなエンドツーエンド駆動アーキテクチャであるBevADを紹介します。
- 参考スコア(独自算出の注目度): 45.17722693412255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving has gained significant attention for its potential to learn robust behavior in interactive scenarios and scale with data. Popular architectures often build on separate modules for perception and planning connected through latent representations, such as bird's eye view feature grids, to maintain end-to-end differentiability. This paradigm emerged mostly on open-loop datasets, with evaluation focusing not only on driving performance, but also intermediate perception tasks. Unfortunately, architectural advances that excel in open-loop often fail to translate to scalable learning of robust closed-loop driving. In this paper, we systematically re-examine the impact of common architectural patterns on closed-loop performance: (1) high-resolution perceptual representations, (2) disentangled trajectory representations, and (3) generative planning. Crucially, our analysis evaluates the combined impact of these patterns, revealing both unexpected limitations as well as underexplored synergies. Building on these insights, we introduce BevAD, a novel lightweight and highly scalable end-to-end driving architecture. BevAD achieves 72.7% success rate on the Bench2Drive benchmark and demonstrates strong data-scaling behavior using pure imitation learning. Our code and models are publicly available here: https://dmholtz.github.io/bevad/
- Abstract(参考訳): エンドツーエンドの自動運転は、対話的なシナリオで堅牢な振る舞いを学び、データでスケールする可能性に対して、大きな注目を集めている。
一般的なアーキテクチャは、認識と計画のための別々のモジュールの上に構築され、鳥の目視の特徴グリッドのような潜在表現を通して接続され、エンドツーエンドの識別性を維持する。
このパラダイムは、主にオープンループデータセットに基づいており、評価はパフォーマンスの駆動だけでなく、中間認識タスクにも焦点をあてている。
残念ながら、オープンループで優れているアーキテクチャ上の進歩は、堅牢なクローズドループ駆動のスケーラブルな学習に変換できないことが多い。
本稿では,(1)高分解能知覚表現,(2)歪んだ軌道表現,(3)生成計画といった共通アーキテクチャパターンが閉ループ性能に与える影響を系統的に再検討する。
重要なことは、我々の分析はこれらのパターンの複合的な影響を評価し、予期せぬ限界と未探索の相乗効果の両方を明らかにしている。
これらの洞察に基づいて、我々は、軽量でスケーラブルなエンドツーエンド駆動アーキテクチャであるBevADを紹介します。
BevADはBench2Driveベンチマークで72.7%の成功率を達成した。
私たちのコードとモデルはこちらで公開されています。
関連論文リスト
- BikeActions: An Open Platform and Benchmark for Cyclist-Centric VRU Action Recognition [0.2339805471804333]
FUSE-Bikeは、その種の最初の完全にオープンな認識プラットフォームである。
BikeActionsは5つのアクションクラスにわたる852の注釈付きサンプルからなる、新しいマルチモーダルデータセットである。
我々は、公開されたデータ分割に基づいて、最先端のグラフ畳み込みとトランスフォーマーベースのモデルを評価することで、厳密なベンチマークを確立する。
論文 参考訳(メタデータ) (2026-01-15T15:47:46Z) - LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving [29.34610793694948]
本研究では,有能な専門家による実演とセンサを用いた学生観察の誤調整が,模倣学習の有効性を抑えるかを検討した。
TransFuser v6 (TFv6) の学生ポリシーは、すべての主要なCARLAクローズドループベンチマークにおいて、新しい技術状態を達成する。
論文 参考訳(メタデータ) (2025-12-23T18:07:43Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Deep Active Inference for Pixel-Based Discrete Control: Evaluation on
the Car Racing Problem [0.0]
我々は,OpenAIのカーレースベンチマークにおいて,ディープアクティブ推論(DAIF)エージェントの性能について検討した。
状態推論と制御は、期待される自由エネルギーを最適化することでエンドツーエンドで学習される。
vanilla dAIFは、他の世界モデルアプローチと比べて最先端のパフォーマンスに達しない。
論文 参考訳(メタデータ) (2021-09-09T10:33:36Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。