論文の概要: AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
- arxiv url: http://arxiv.org/abs/2503.07608v1
- Date: Mon, 10 Mar 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:48.497093
- Title: AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
- Title(参考訳): AlphaDrive:強化学習と推論による自動運転におけるVLMのパワーの解放
- Authors: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang,
- Abstract要約: 自動運転では、最近のエンド・ツー・エンドのモデルは計画性能を大幅に改善した。
視覚言語モデル(VLM)を自律運転に統合する研究もあるが、それらは通常、単純な教師付き微調整による事前訓練モデルに依存している。
本稿では、自律運転におけるVLMのためのRLおよび推論フレームワークであるAlphaDriveを提案する。
- 参考スコア(独自算出の注目度): 41.437804230031624
- License:
- Abstract: OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level performance in complex domains like mathematics and science, with reinforcement learning (RL) and reasoning playing a crucial role. In autonomous driving, recent end-to-end models have greatly improved planning performance but still struggle with long-tailed problems due to limited common sense and reasoning abilities. Some studies integrate vision-language models (VLMs) into autonomous driving, but they typically rely on pre-trained models with simple supervised fine-tuning (SFT) on driving data, without further exploration of training strategies or optimizations specifically tailored for planning. In this paper, we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning and employs a two-stage planning reasoning training strategy that combines SFT with RL. As a result, AlphaDrive significantly improves both planning performance and training efficiency compared to using only SFT or without reasoning. Moreover, we are also excited to discover that, following RL training, AlphaDrive exhibits some emergent multimodal planning capabilities, which is critical for improving driving safety and efficiency. To the best of our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning reasoning into autonomous driving. Code will be released to facilitate future research.
- Abstract(参考訳): OpenAI o1とDeepSeek R1は、強化学習(RL)と推論が重要な役割を担い、数学や科学のような複雑な領域において、人間の専門家レベルのパフォーマンスを達成または上回る。
自動運転では、最近のエンド・ツー・エンドのモデルでは計画性能が大幅に改善されているが、一般的な感覚や推論能力に制限があるため、長い尾の問題に苦慮している。
視覚言語モデル(VLM)を自律運転に統合する研究もあるが、通常、訓練戦略や特に計画に適した最適化を探求することなく、単純な教師付き微調整(SFT)による事前訓練モデルに依存している。
本稿では、自律運転におけるVLMのためのRLおよび推論フレームワークであるAlphaDriveを提案する。
AlphaDriveは計画に適した4つのGRPOベースのRL報酬を導入し、SFTとRLを組み合わせた2段階の計画推論トレーニング戦略を採用している。
その結果、AlphaDriveは計画性能と訓練効率の両方を、SFTのみまたは推論なしで使用する場合に比べて大幅に改善する。
さらに、RLトレーニングの後、AlphaDriveは、運転の安全性と効率を改善するために重要な、創発的なマルチモーダル計画能力を示すことにも興奮しています。
私たちの知る限りでは、AlphaDriveはGRPOベースのRLを自動運転に計画する計画と統合した最初の企業です。
コードは、将来の研究を促進するためにリリースされる。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Boosting Offline Reinforcement Learning for Autonomous Driving with
Hierarchical Latent Skills [37.31853034449015]
本稿では、長距離車両計画の課題を克服するために、オフラインRLを強化するスキルベースのフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
一般的なVAEの後方崩壊を緩和するため、2分岐シーケンスエンコーダを導入し、離散的なオプションと複雑な駆動スキルの連続的な変化をキャプチャする。
論文 参考訳(メタデータ) (2023-09-24T11:51:17Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Efficient Reinforcement Learning for Autonomous Driving with
Parameterized Skills and Priors [16.87227671645374]
ASAP-RLは自律運転のための効率的な強化学習アルゴリズムである。
専門的なデモンストレーションを制御空間からスキル空間に変換するために,スキルパラメータ逆回復法を提案する。
本手法は, 単純かつスパースな報酬を付与した対話型高密度交通運転タスクにおいて, 提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-08T01:39:35Z) - DriverGym: Democratising Reinforcement Learning for Autonomous Driving [75.91049219123899]
本稿では,自律運転のための強化学習アルゴリズムを開発するオープンソース環境であるDeadGymを提案する。
DriverGymは1000時間以上の専門家ログデータへのアクセスを提供し、リアクティブおよびデータ駆動エージェントの動作をサポートする。
広範かつフレキシブルなクローズループ評価プロトコルを用いて,実世界のデータ上でRLポリシーの性能を容易に検証できる。
論文 参考訳(メタデータ) (2021-11-12T11:47:08Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Formula RL: Deep Reinforcement Learning for Autonomous Racing using
Telemetry Data [4.042350304426975]
この問題を,車両のテレメトリと連続的な動作空間からなる多次元入力を用いて強化学習タスクとして構成する。
我々は,2つの実験において,Deep Deterministic Policy gradient (DDPG) の10変種をレースに投入した。
研究によると、rlでトレーニングされたモデルは、オープンソースの手作りロボットよりも高速に運転できるだけでなく、未知のトラックに一般化できる。
論文 参考訳(メタデータ) (2021-04-22T14:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。