論文の概要: DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.24587v2
- Date: Wed, 01 Apr 2026 13:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.582421
- Title: DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving
- Title(参考訳): DreamerAD: 自律運転のための潜在世界モデルによる効率的な強化学習
- Authors: Pengxuan Yang, Yupeng Zheng, Deheng Qian, Zebin Xing, Qichao Zhang, Linbo Wang, Yichen Zhang, Shaoyu Guo, Zhongpu Xia, Qiang Chen, Junyu Han, Lingyun Xu, Yifeng Pan, Dongbin Zhao,
- Abstract要約: 自律運転のための効率的な強化学習を可能にする,世界初の潜在世界モデルフレームワークであるDreamerADを紹介する。
視覚的解釈性を維持しながら,100段から1段までの拡散サンプリングを圧縮し,80倍の高速化を実現した。
DreamerADはNavSim v2で87.7Sを達成し、最先端の性能を確立し、潜在空間が自律運転に有効であることを実証している。
- 参考スコア(独自算出の注目度): 27.903110792743064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DreamerAD, the first latent world model framework that enables efficient reinforcement learning for autonomous driving by compressing diffusion sampling from 100 steps to 1 - achieving 80x speedup while maintaining visual interpretability. Training RL policies on real-world driving data incurs prohibitive costs and safety risks. While existing pixel-level diffusion world models enable safe imagination-based training, they suffer from multi-step diffusion inference latency (2s/frame) that prevents high-frequency RL interaction. Our approach leverages denoised latent features from video generation models through three key mechanisms: (1) shortcut forcing that reduces sampling complexity via recursive multi-resolution step compression, (2) an autoregressive dense reward model operating directly on latent representations for fine-grained credit assignment, and (3) Gaussian vocabulary sampling for GRPO that constrains exploration to physically plausible trajectories. DreamerAD achieves 87.7 EPDMS on NavSim v2, establishing state-of-the-art performance and demonstrating that latent-space RL is effective for autonomous driving.
- Abstract(参考訳): 本稿では,100ステップから1ステップまでの拡散サンプリングを圧縮し,視覚的解釈性を維持しながら80倍の高速化を実現し,自律運転のための効率的な強化学習を可能にする,世界初の潜在世界モデルフレームワークであるDreamerADを紹介する。
現実の運転データに対するRLポリシーの訓練は、禁止的なコストと安全性のリスクを引き起こす。
既存のピクセルレベルの拡散ワールドモデルは、安全な想像力に基づくトレーニングを可能にするが、高周波RL相互作用を妨げる多段階拡散推論遅延(2s/frame)に悩まされる。
提案手法は,(1)再帰的マルチレゾリューションステップ圧縮によるサンプリング複雑性を低減させるショートカット,(2)細粒度のクレジット代入のために遅延表現を直接操作する自己回帰的高次報酬モデル,(3)物理的に可算な軌道の探索を制約するGRPOのためのガウス語彙サンプリングの3つの主要なメカニズムにより,映像生成モデルから遅延特徴を抽出する。
DreamerAD は NavSim v2 上で87.7 EPDMS を達成し、最先端の性能を確立し、潜在空間 RL が自律運転に有効であることを示す。
関連論文リスト
- Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving [8.391716372682316]
車両キネマティック情報は観測エンコーダに組み込まれ、物理的に意味のある運動力学における潜伏遷移を基底とする。
ジオメトリ・アウェアの監督は、RSSM潜時状態を規則化し、ピクセル再構成を超えてタスク関連空間構造をキャプチャする。
論文 参考訳(メタデータ) (2026-03-07T15:47:54Z) - TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation [65.45588646626426]
本稿では,VLAモデルのスケールと探索のガイドを目的としたデジタルツインワールド協調RLフレームワークであるTwinRLを提案する。
まず、高忠実度デジタルツインをスマートフォンで捉えたシーンから効率的に再構成し、実環境とシミュレートされた環境間の現実的な双方向転送を可能にする。
我々の実験では、TwinRLは、実世界の実証と流通域の両方でカバーされた流通域において100%の成功に近づき、従来の実世界のRL法よりも少なくとも30%のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-09T18:59:52Z) - Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observations [0.7239024032079358]
本稿では,DreamerV3アルゴリズム上に構築された新しいモデルベースRLフレームワークを提案する。
MLP-VAE(Multi-Layer Perceptron Variational Autoencoder)を世界モデルに統合し、高次元LIDAR読み出しをコンパクトな潜在表現に符号化する。
シミュレーションされたTurtleBot3ナビゲーションタスクの実験は、提案アーキテクチャがより高速な収束とより高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-12-03T04:15:31Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis [32.08769443927576]
我々は、リアルタイム・リスク対応計画のためのデュアルシステム・ワールドモデルであるManipulate in Dream (MinD)を提案する。
MinDは2つの非同期拡散プロセスを使用する: 将来のシーンを予測する低周波ビジュアルジェネレータ(LoDiff)とアクションを出力する高周波拡散ポリシー(HiDiff)である。
私たちの重要な洞察は、ロボットポリシーが完全に認知されたフレームを必要とせず、単一の認知ステップで生成された低解像度の潜伏剤に頼ることができるということです。
MinDがRL-Benchで63%の成功率、実世界のFrankaタスクで60%、11.3FPSで稼働
論文 参考訳(メタデータ) (2025-06-23T17:59:06Z) - Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2) [54.185249897842034]
強化学習(RL)は、模倣学習(IL)に固有の因果的混乱と分布変化を軽減することができる
RLをエンドツーエンドの自動運転(E2E-AD)に適用することは、その訓練の難しさにおいて未解決の問題である。
論文 参考訳(メタデータ) (2025-05-22T08:46:53Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Imagine-2-Drive: Leveraging High-Fidelity World Models via Multi-Modal Diffusion Policies [9.639797094021988]
World Model-based Reinforcement Learning (WMRL)は、効率的な政策学習を可能にする。
マルチモーダル拡散型ポリシーアクタと高忠実度世界モデルを統合する新しいWMRLフレームワークであるImagine-2-Driveを提案する。
DiffDreamer内のDPAをトレーニングすることにより,オンラインインタラクションを最小限に抑えた堅牢なポリシー学習を実現する。
論文 参考訳(メタデータ) (2024-11-15T13:17:54Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。