論文の概要: Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail
- arxiv url: http://arxiv.org/abs/2511.00088v1
- Date: Thu, 30 Oct 2025 01:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.576591
- Title: Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail
- Title(参考訳): Alpamayo-R1: 長期走行における汎用自動運転のためのブリッジング推論と動作予測
- Authors: NVIDIA, :, Yan Wang, Wenjie Luo, Junjie Bai, Yulong Cao, Tong Che, Ke Chen, Yuxiao Chen, Jenna Diamond, Yifan Ding, Wenhao Ding, Liang Feng, Greg Heinrich, Jack Huang, Peter Karkus, Boyi Li, Pinyi Li, Tsung-Yi Lin, Dongran Liu, Ming-Yu Liu, Langechuan Liu, Zhijian Liu, Jason Lu, Yunxiang Mao, Pavlo Molchanov, Lindsey Pavao, Zhenghao Peng, Mike Ranzinger, Ed Schmerling, Shida Shen, Yunfei Shi, Sarah Tariq, Ran Tian, Tilman Wekel, Xinshuo Weng, Tianjun Xiao, Eric Yang, Xiaodong Yang, Yurong You, Xiaohui Zeng, Wenyuan Zhang, Boris Ivanovic, Marco Pavone,
- Abstract要約: Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
- 参考スコア(独自算出の注目度): 85.47497935739936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end architectures trained via imitation learning have advanced autonomous driving by scaling model size and data, yet performance remains brittle in safety-critical long-tail scenarios where supervision is sparse and causal understanding is limited. To address this, we introduce Alpamayo-R1 (AR1), a vision-language-action model (VLA) that integrates Chain of Causation reasoning with trajectory planning to enhance decision-making in complex driving scenarios. Our approach features three key innovations: (1) the Chain of Causation (CoC) dataset, built through a hybrid auto-labeling and human-in-the-loop pipeline producing decision-grounded, causally linked reasoning traces aligned with driving behaviors; (2) a modular VLA architecture combining Cosmos-Reason, a Vision-Language Model pre-trained for Physical AI applications, with a diffusion-based trajectory decoder that generates dynamically feasible plans in real time; (3) a multi-stage training strategy using supervised fine-tuning to elicit reasoning and reinforcement learning (RL) to optimize reasoning quality via large reasoning model feedback and enforce reasoning-action consistency. Evaluation shows AR1 achieves up to a 12% improvement in planning accuracy on challenging cases compared to a trajectory-only baseline, with a 35% reduction in off-road rate and 25% reduction in close encounter rate in closed-loop simulation. RL post-training improves reasoning quality by 45% as measured by a large reasoning model critic and reasoning-action consistency by 37%. Model scaling from 0.5B to 7B parameters shows consistent improvements. On-vehicle road tests confirm real-time performance (99 ms latency) and successful urban deployment. By bridging interpretable reasoning with precise control, AR1 demonstrates a practical path towards Level 4 autonomous driving. We plan to release AR1 models and a subset of the CoC in a future update.
- Abstract(参考訳): 模倣学習によってトレーニングされたエンドツーエンドのアーキテクチャは、モデルのサイズとデータをスケーリングすることで、自律運転を進歩させていますが、監視がまばらで因果理解が限られている安全クリティカルなロングテールシナリオでは、パフォーマンスは依然として不安定です。
これを解決するために、複雑な運転シナリオにおける意思決定を強化する軌道計画と因果推論の連鎖を統合した視覚言語行動モデル(VLA)であるAlpamayo-R1(AR1)を導入する。
提案手法は,1)運転行動に合わせた意思決定的,因果的にリンクされた推論トレースを生成するハイブリッド自動ラベルと人為的ループパイプラインによって構築されたCoC(Chain of Causation)データセット,2)物理AIアプリケーション用に事前トレーニングされたビジョンランゲージモデルであるCosmos-Reasonと,リアルタイムに動的に実現可能な計画を生成する拡散型トラジェクトリデコーダを組み合わせたモジュール型VLAアーキテクチャ,(3)教師付き微調整による推論と強化学習(RL)を用いた多段階トレーニング戦略,の3つである。
評価の結果、AR1は軌道のみのベースラインに比べて12%の精度で計画精度が向上し、オフロードレートは35%、クローズドループシミュレーションでは25%の削減が達成された。
RLポストトレーニングは、大きな推論モデル評論家と推論-アクションの一貫性を37%向上させ、推論品質を45%向上させる。
0.5Bから7Bへのモデルスケーリングは、一貫した改善を示している。
車載テストでは、リアルタイムのパフォーマンス(99msレイテンシ)を確認し、都市への展開に成功した。
解釈可能な推論を正確に制御することで、AR1はレベル4自動運転への実践的な道を示す。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
関連論文リスト
- ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - DriveAgent-R1: Advancing VLM-based Autonomous Driving with Active Perception and Hybrid Thinking [33.98300989562812]
本稿では,計画のためのアクティブな認識が可能な最初の自律運転エージェントであるDriveAgent-R1を紹介する。
複雑なシナリオでは、DriveAgent-R1は視覚的推論を行うためのツールを積極的に呼び出し、その決定を視覚的証拠にしっかりと基礎づける。
本稿では,人間ドライバーの認知パターンにインスパイアされたハイブリッド思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T14:33:15Z) - ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving [27.75047397292818]
エンドツーエンドの自動運転は、単一のフレームワーク内で認識、予測、計画を統合するための有望なアプローチとして現れています。
本稿では,3階層の認知モデルに基づいて自律運転における意思決定を構造化するReAL-ADを提案する。
我々のフレームワークを統合することで、計画の正確さと安全性が30%以上向上し、エンドツーエンドの自動運転がより解釈可能になり、人間のような階層的推論に適合することを示します。
論文 参考訳(メタデータ) (2025-07-16T02:23:24Z) - Deep reinforcement learning-based longitudinal control strategy for automated vehicles at signalised intersections [2.9398787168955116]
本研究では,信号交差点における深部強化学習に基づく縦方向車両制御戦略を提案する。
総合的な報酬関数は、特に距離方向に基づく効率報酬に焦点を当てて定式化されている。
DDPG(Deep Deterministic Policy Gradient)とSAC(Soft-Actor Critic)という2つのDRLアルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2025-05-13T18:38:42Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by Reality [46.909086734963665]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。