論文の概要: ALN-P3: Unified Language Alignment for Perception, Prediction, and Planning in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.15158v1
- Date: Wed, 21 May 2025 06:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.013128
- Title: ALN-P3: Unified Language Alignment for Perception, Prediction, and Planning in Autonomous Driving
- Title(参考訳): ALN-P3:自律運転における認識・予測・計画のための統一言語アライメント
- Authors: Yunsheng Ma, Burhaneddin Yaman, Xin Ye, Mahmut Yurt, Jingru Luo, Abhirup Mallik, Ziran Wang, Liu Ren,
- Abstract要約: 我々は,「高速」な視覚に基づく自律運転システムと「スロー」な言語駆動推論モジュールの相互接続を実現する統合共蒸留フレームワークALN-P3を提案する。
ALN-P3には3つの新しいアライメント機構が組み込まれており、視覚トークンと対応する言語出力を、完全な知覚、予測、計画スタックにわたって明示的にアライメントする。
- 参考スコア(独自算出の注目度): 15.487845580162114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have explored integrating large language models (LLMs) into end-to-end autonomous driving systems to enhance generalization and interpretability. However, most existing approaches are limited to either driving performance or vision-language reasoning, making it difficult to achieve both simultaneously. In this paper, we propose ALN-P3, a unified co-distillation framework that introduces cross-modal alignment between "fast" vision-based autonomous driving systems and "slow" language-driven reasoning modules. ALN-P3 incorporates three novel alignment mechanisms: Perception Alignment (P1A), Prediction Alignment (P2A), and Planning Alignment (P3A), which explicitly align visual tokens with corresponding linguistic outputs across the full perception, prediction, and planning stack. All alignment modules are applied only during training and incur no additional costs during inference. Extensive experiments on four challenging benchmarks-nuScenes, Nu-X, TOD3Cap, and nuScenes QA-demonstrate that ALN-P3 significantly improves both driving decisions and language reasoning, achieving state-of-the-art results.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)をエンドツーエンドの自律運転システムに統合し,一般化と解釈性の向上を図っている。
しかし、既存のアプローチのほとんどは性能向上か視覚言語推論に限られており、同時に実現することは困難である。
本稿では,「高速」な視覚に基づく自律運転システムと「スロー」な言語駆動推論モジュールを相互に連携させる統合共蒸留フレームワークALN-P3を提案する。
ALN-P3には、知覚アライメント(P1A)、予測アライメント(P2A)、計画アライメント(P3A)の3つの新しいアライメント機構が組み込まれている。
すべてのアライメントモジュールはトレーニング中にのみ適用され、推論中に追加のコストは発生しない。
Nu-X、TOD3Cap、nuScenesの4つの挑戦的なベンチマーク-nuSceneに関する大規模な実験では、ALN-P3は駆動決定と言語推論の両方を大幅に改善し、最先端の結果を達成する。
関連論文リスト
- DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving [18.733927270738455]
Hint-ADは、ADモデルの総合的な知覚予測計画出力に対応する言語を生成する統合AD言語システムである。
Hint-ADは、中間出力と総括トークンミキサーサブネットワークを有効適応に組み込むことで、望ましい精度を実現する。
nuScenesにおける説明タスクの実行に関するさらなる研究を容易にするため、人間ラベル付きデータセット、Nu-X.コード、データセット、モデルも公開する予定である。
論文 参考訳(メタデータ) (2024-09-10T17:59:40Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。