論文の概要: Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations
- arxiv url: http://arxiv.org/abs/2603.11417v1
- Date: Thu, 12 Mar 2026 01:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.802452
- Title: Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations
- Title(参考訳): エンドツーエンド自動運転におけるゼロショット都市間一般化:自己監督と監督表現
- Authors: Fatemeh Naeinian, Ali Hamza, Haoran Zhu, Anna Choromanska,
- Abstract要約: エンド・ツー・エンド軌道計画におけるゼロショット・クロスシティの一般化について検討する。
自己監督型視覚表現は都市間の移動を改善する。
これらの結果は、エンド・ツー・エンドの自動運転システムを評価するために必要なテストとしてゼロショットの地理的移動を確立する。
- 参考スコア(独自算出の注目度): 9.18632648031395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end autonomous driving models are typically trained on multi-city datasets using supervised ImageNet-pretrained backbones, yet their ability to generalize to unseen cities remains largely unexamined. When training and evaluation data are geographically mixed, models may implicitly rely on city-specific cues, masking failure modes that would occur under real domain shifts when generalizing to new locations. In this work we investigate zero-shot cross-city generalization in end-to-end trajectory planning and ask whether self-supervised visual representations improve transfer across cities. We conduct a comprehensive study by integrating self-supervised backbones (I-JEPA, DINOv2, and MAE) into planning frameworks. We evaluate performance under strict geographic splits on nuScenes in the open-loop setting and on NAVSIM in the closed-loop evaluation protocol. Our experiments reveal a substantial generalization gap when transferring models relying on traditional supervised backbones across cities with different road topologies and driving conventions, particularly when transferring from right-side to left-side driving environments. Self-supervised representation learning reduces this gap. In open-loop evaluation, a supervised backbone exhibits severe inflation when transferring from Boston to Singapore (L2 displacement ratio 9.77x, collision ratio 19.43x), whereas domain-specific self-supervised pretraining reduces this to 1.20x and 0.75x respectively. In closed-loop evaluation, self-supervised pretraining improves PDMS by up to 4 percent for all single-city training cities. These results show that representation learning strongly influences the robustness of cross-city planning and establish zero-shot geographic transfer as a necessary test for evaluating end-to-end autonomous driving systems.
- Abstract(参考訳): エンドツーエンドの自動運転モデルは一般的に、教師付きImageNetで事前訓練されたバックボーンを使用して、マルチシティデータセットでトレーニングされる。
トレーニングと評価データが地理的に混合されている場合、モデルは暗黙的に都市固有の手がかりに依存し、新しい場所に一般化する際に実際のドメインシフトの下で発生する障害モードをマスキングする。
本研究では、エンド・ツー・エンドの軌跡計画におけるゼロショット・クロスシティの一般化について検討し、自己監督型視覚表現が都市間の移動を改善するかどうかを問う。
我々は,自己監督型バックボーン(I-JEPA,DINOv2,MAE)を計画枠組みに統合し,総合的な研究を行う。
オープンループ設定における nuScenes とクローズドループ評価プロトコルにおける NAVSIM の厳密な地理的分割による性能評価を行った。
実験の結果,道路トポロジや運転慣行の異なる都市間において,従来の監督されたバックボーンに依存したモデル転送を行う場合,特に右側から左側への走行環境において,大きな一般化ギャップが明らかとなった。
自己指導型表現学習は、このギャップを減らします。
オープンループ評価では、監督されたバックボーンはボストンからシンガポールへの移動時に激しいインフレを示す(L2変位比9.77x、衝突比19.43x)が、ドメイン固有の自己監督型事前訓練は、それぞれ1.20xと0.75xに減少する。
クローズドループ評価では、自己監督型事前訓練は、全都市でPDMSを最大4%改善する。
これらの結果は,表現学習が都市間計画の堅牢性に強く影響し,エンドツーエンドの自動運転システムを評価するために必要なテストとしてゼロショットの地理的移動を確立することを示唆している。
関連論文リスト
- Realistic Urban Traffic Generator using Decentralized Federated Learning for the SUMO simulator [2.281163408378731]
DesRUTGeは、Deep Reinforcement LearningエージェントをSUMOシミュレータと統合し、現実的な24時間トラフィックパターンを生成する新しいフレームワークである。
DesRUTGeの重要な革新は、分散フェデレートラーニング(DFL)を使用することで、各トラフィック検出器とその対応する都市ゾーンが独立した学習ノードとして機能する。
論文 参考訳(メタデータ) (2025-06-09T17:51:45Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
マルチエージェントインタラクションをキャプチャする実世界のモーションプランニングベンチマークであるnuPlanを提案する。
我々は、グラフ畳み込みニューラルネットワーク(GCNN)であるBehaviorNetを用いて、このようなユニークな振る舞いをモデル化することを学ぶ。
また、モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverについても紹介する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - Arrival Time Prediction for Autonomous Shuttle Services in the Real
World: Evidence from Five Cities [3.6294895527930504]
本研究では,自律型シャトルのAT予測システムを提案する。
停留所をバイパスするシャトルのケースを正確に処理するために,ランダムな森林分類器とGNNを組み合わせた階層モデルを提案する。
最終的なAT予測の結果は有望であり、いくつかの停止を予測してもエラーは少ない。
論文 参考訳(メタデータ) (2024-01-10T18:41:39Z) - Learning to Drive Anywhere [38.547150940396904]
地理的に認識された条件付き模倣学習モデルであるAnyDを提案する。
我々の重要な洞察は、高容量なジオロケーションベースのチャネルアテンションメカニズムを導入することである。
提案手法は、本質的に不均衡なデータ分布と位置依存イベントを効率的にスケールすることができる。
論文 参考訳(メタデータ) (2023-09-21T17:55:36Z) - Hierarchical Model-Based Imitation Learning for Planning in Autonomous
Driving [47.59287162318435]
都市密集型自動運転の課題に対するモデルベース生成逆相似学習(MGAIL)の大規模適用を実証した。
我々は、任意の目標経路への一般化を可能にする階層モデルを用いて標準MGAILを拡張し、シミュレーションされた対話エージェントを用いたクローズドループ評価フレームワークを用いて性能を測定する。
私たちは、サンフランシスコで10万マイル以上を走行する実車から収集した専門家の軌跡からのポリシーを訓練し、ゼロショット環境でも堅牢にナビゲートできるステアブルなポリシーを実証します。
論文 参考訳(メタデータ) (2022-10-18T02:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。