論文の概要: ALN-P3: Unified Language Alignment for Perception, Prediction, and Planning in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.15158v1
- Date: Wed, 21 May 2025 06:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.013128
- Title: ALN-P3: Unified Language Alignment for Perception, Prediction, and Planning in Autonomous Driving
- Title(参考訳): ALN-P3:自律運転における認識・予測・計画のための統一言語アライメント
- Authors: Yunsheng Ma, Burhaneddin Yaman, Xin Ye, Mahmut Yurt, Jingru Luo, Abhirup Mallik, Ziran Wang, Liu Ren,
- Abstract要約: 我々は,「高速」な視覚に基づく自律運転システムと「スロー」な言語駆動推論モジュールの相互接続を実現する統合共蒸留フレームワークALN-P3を提案する。
ALN-P3には3つの新しいアライメント機構が組み込まれており、視覚トークンと対応する言語出力を、完全な知覚、予測、計画スタックにわたって明示的にアライメントする。
- 参考スコア(独自算出の注目度): 15.487845580162114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have explored integrating large language models (LLMs) into end-to-end autonomous driving systems to enhance generalization and interpretability. However, most existing approaches are limited to either driving performance or vision-language reasoning, making it difficult to achieve both simultaneously. In this paper, we propose ALN-P3, a unified co-distillation framework that introduces cross-modal alignment between "fast" vision-based autonomous driving systems and "slow" language-driven reasoning modules. ALN-P3 incorporates three novel alignment mechanisms: Perception Alignment (P1A), Prediction Alignment (P2A), and Planning Alignment (P3A), which explicitly align visual tokens with corresponding linguistic outputs across the full perception, prediction, and planning stack. All alignment modules are applied only during training and incur no additional costs during inference. Extensive experiments on four challenging benchmarks-nuScenes, Nu-X, TOD3Cap, and nuScenes QA-demonstrate that ALN-P3 significantly improves both driving decisions and language reasoning, achieving state-of-the-art results.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)をエンドツーエンドの自律運転システムに統合し,一般化と解釈性の向上を図っている。
しかし、既存のアプローチのほとんどは性能向上か視覚言語推論に限られており、同時に実現することは困難である。
本稿では,「高速」な視覚に基づく自律運転システムと「スロー」な言語駆動推論モジュールを相互に連携させる統合共蒸留フレームワークALN-P3を提案する。
ALN-P3には、知覚アライメント(P1A)、予測アライメント(P2A)、計画アライメント(P3A)の3つの新しいアライメント機構が組み込まれている。
すべてのアライメントモジュールはトレーニング中にのみ適用され、推論中に追加のコストは発生しない。
Nu-X、TOD3Cap、nuScenesの4つの挑戦的なベンチマーク-nuSceneに関する大規模な実験では、ALN-P3は駆動決定と言語推論の両方を大幅に改善し、最先端の結果を達成する。
関連論文リスト
- A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving [10.685706490545956]
本稿では,マルチセンサ融合(カメラ,LiDAR,レーダ)と大規模言語モデル(LLM)を付加したVLAアーキテクチャを統合したパーセプション・ランゲージ・アクション(PLA)フレームワークを提案する。
このフレームワークは、低レベルの知覚処理と高レベルの文脈推論を統合して、コンテキスト認識、説明可能、安全に拘束された自律運転を可能にする。
論文 参考訳(メタデータ) (2025-07-31T13:30:47Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving [18.733927270738455]
Hint-ADは、ADモデルの総合的な知覚予測計画出力に対応する言語を生成する統合AD言語システムである。
Hint-ADは、中間出力と総括トークンミキサーサブネットワークを有効適応に組み込むことで、望ましい精度を実現する。
nuScenesにおける説明タスクの実行に関するさらなる研究を容易にするため、人間ラベル付きデータセット、Nu-X.コード、データセット、モデルも公開する予定である。
論文 参考訳(メタデータ) (2024-09-10T17:59:40Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。