論文の概要: Distill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.21139v2
- Date: Fri, 22 May 2026 01:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.713964
- Title: Distill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving
- Title(参考訳): 考える, 行動する: 自律運転のための認知物理学的強化学習
- Authors: Yang Wu, Qiang Meng, Zhaojiang Liu, Youquan Liu, Jian Yang, Jin Xie,
- Abstract要約: CoPhyは、自動運転のためのCognitivePhysical強化学習フレームワークである。
我々は、VLMの知識をBEVエンコーダに蒸留し、VLMを完全に破棄する。
我々は,自動回帰的BEV世界モデルを構築し,将来のセマンティックマップが候補行動に規定されることを明示的に予測する。
- 参考スコア(独自算出の注目度): 32.98870275484187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current end-to-end autonomous driving models are fundamentally constrained by the behavioral cloning ceiling of imitation learning. While reinforcement learning offers a path to smarter autonomy, it demands two missing pieces of infrastructure: (1) a cognitive foundation that understands traffic semantics and driving intent, and (2) a foresighted physical environment that can anticipate the consequences of candidate actions. To this end, we propose CoPhy, a CognitivePhysical reinforcement learning framework for autonomous driving. To distill to think, we distill VLM knowledge into the BEV encoder and then discard the VLM entirely, retaining cognitive ability at zero inference cost while releasing the cognitive channel as a pluggable interface for optional human language commands. To foresee to act, we build an auto-regressive BEV world model that explicitly predicts future semantic maps conditioned on candidate actions, serving as an interpretable physical sandbox from which safety metrics are directly derived. Built upon this dual infrastructure, we optimize the driving policy via GRPO with a novel dual-reward mechanism: a physical reward derived from BEV rollouts enforces hard safety constraints, while a cognitive reward from a language-aligned scorer ensures intent compliance. Extensive experiments demonstrate that CoPhy not only achieves state-of-the-art results on NAVSIM v1 and v2 benchmarks, but also enables safer driving via cognitively informed scene compliance and flexible intent control through user-defined language instructions.
- Abstract(参考訳): 現在のエンド・ツー・エンドの自動運転モデルは、模倣学習の行動的クローン天井によって根本的に制約されている。
強化学習は、よりスマートな自律への道を提供する一方で、(1)交通意味論と運転意図を理解する認知基盤、(2)候補者行動の結果を予測できる先見的な物理的環境の2つの欠落したインフラを必要としている。
この目的のために,自律運転のための認知物理強化学習フレームワークであるCoPhyを提案する。
念のために,我々はVLMの知識をBEVエンコーダに蒸留し,VLMを完全に破棄し,認知チャネルを任意の人間の言語コマンドにプラグイン可能なインターフェースとしてリリースしながら,ゼロ推論コストで認知能力を維持する。
動作を予測するために、我々は、自動回帰的BEV世界モデルを構築し、予測可能な物理的なサンドボックスとして機能し、安全基準を直接導出する将来のセマンティックマップを明示的に予測する。
BEVのロールアウトから引き起こされた物理的報酬は、ハードセーフな制約を強制する一方、言語対応のスコアラーからの認知的報酬は、意図の遵守を保証する。
大規模な実験により、CoPhyはNAVSIM v1とv2ベンチマークで最先端の結果を達成するだけでなく、認知的なシーンコンプライアンスとユーザ定義言語命令による柔軟なインテントコントロールを通じて、より安全な運転を可能にする。
関連論文リスト
- DriveVLM-RL: Neuroscience-Inspired Reinforcement Learning with Vision-Language Models for Safe and Deployable Autonomous Driving [7.788062051923755]
DriveVLM-RLは神経科学に触発されたフレームワークで、視覚言語モデルと強化学習を統合する。
このフレームワークは、連続的な空間安全評価のための静的パスに意味報酬学習を分解する。
階層的な報酬合成機構は、セマンティック信号を車両状態と融合させ、非同期トレーニングパイプラインは環境相互作用から高価なVLM推論を分離する。
論文 参考訳(メタデータ) (2026-03-18T21:55:29Z) - Large Multimodal Models for Embodied Intelligent Driving: The Next Frontier in Self-Driving? [68.82027978227008]
この記事では、この課題に取り組むために、新しいセマンティクスとポリシーの二重駆動型ハイブリッド決定フレームワークを紹介します。
このフレームワークは、意味理解と認知表現のためのLMMと、リアルタイムポリシー最適化のための深層強化学習(DRL)を統合している。
本研究は,車線変更計画作業におけるフレームワークの性能優位性を検証するための事例研究である。
論文 参考訳(メタデータ) (2026-01-13T11:05:12Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文 参考訳(メタデータ) (2025-12-15T18:31:32Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - A Language Agent for Autonomous Driving [31.359413767191608]
本稿では,人間のような知性を自律運転システムに統合するためのパラダイムシフトを提案する。
当社のアプローチはAgent-Driverと呼ばれ,汎用ツールライブラリを導入して,従来の自律走行パイプラインを変革する。
LLM(Large Language Models)によって駆動されるエージェントドライブには直感的な常識と堅牢な推論能力が備わっています。
論文 参考訳(メタデータ) (2023-11-17T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。