Fugu-MT 論文翻訳(概要): From Imitation to Exploration: End-to-end Autonomous Driving based on World Model

論文の概要: From Imitation to Exploration: End-to-end Autonomous Driving based on World Model

arxiv url: http://arxiv.org/abs/2410.02253v2
Date: Sun, 20 Apr 2025 06:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 13:04:41.809429
Title: From Imitation to Exploration: End-to-end Autonomous Driving based on World Model
Title（参考訳）: シミュレーションから探索へ:世界モデルに基づくエンドツーエンドの自動運転
Authors: Yueyuan Li, Mingyang Jiang, Songan Zhang, Wei Yuan, Chunxiang Wang, Ming Yang,
Abstract要約: RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。複雑な動的トラフィックシナリオを処理できる。 CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
参考スコア（独自算出の注目度）: 24.578178308010912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, end-to-end autonomous driving architectures have gained increasing attention due to their advantage in avoiding error accumulation. Most existing end-to-end autonomous driving methods are based on Imitation Learning (IL), which can quickly derive driving strategies by mimicking expert behaviors. However, IL often struggles to handle scenarios outside the training dataset, especially in high-dynamic and interaction-intensive traffic environments. In contrast, Reinforcement Learning (RL)-based driving models can optimize driving decisions through interaction with the environment, improving adaptability and robustness. To leverage the strengths of both IL and RL, we propose RAMBLE, an end-to-end world model-based RL method for driving decision-making. RAMBLE extracts environmental context information from RGB images and LiDAR data through an asymmetrical variational autoencoder. A transformer-based architecture is then used to capture the dynamic transitions of traffic participants. Next, an actor-critic structure reinforcement learning algorithm is applied to derive driving strategies based on the latent features of the current state and dynamics. To accelerate policy convergence and ensure stable training, we introduce a training scheme that initializes the policy network using IL, and employs KL loss and soft update mechanisms to smoothly transition the model from IL to RL. RAMBLE achieves state-of-the-art performance in route completion rate on the CARLA Leaderboard 1.0 and completes all 38 scenarios on the CARLA Leaderboard 2.0, demonstrating its effectiveness in handling complex and dynamic traffic scenarios. The model will be open-sourced upon paper acceptance at https://github.com/SCP-CN-001/ramble to support further research and development in autonomous driving.
Abstract（参考訳）: 近年、エラーの蓄積を避けるという利点により、エンドツーエンドの自動運転アーキテクチャが注目されている。既存のエンドツーエンドの自動運転手法はImitation Learning (IL)をベースとしており、専門家の行動を模倣して素早く運転戦略を導出することができる。しかしながら、ILはトレーニングデータセット外のシナリオ、特に高ダイナミックでインタラクション集約的なトラフィック環境を扱うのに苦労することが多い。対照的に、強化学習(RL)ベースの運転モデルは、環境との相互作用を通じて運転決定を最適化し、適応性と堅牢性を向上させることができる。 ILとRLの長所を生かしたRAMBLEを提案する。 RAMBLEは、RGB画像とLiDARデータから、非対称な変分オートエンコーダを介して環境コンテキスト情報を抽出する。次に、トランスフォーマーベースのアーキテクチャを使用して、トラフィック参加者の動的移行をキャプチャする。次に,アクタ・クリティカルな構造強化学習アルゴリズムを適用し,現在の状態とダイナミクスの潜在特性に基づいて運転戦略を導出する。政策収束を加速し、安定したトレーニングを確保するために、ILを用いてポリシーネットワークを初期化し、KL損失とソフトアップデート機構を用いて、モデルをILからRLへスムーズに移行させるトレーニングスキームを導入する。 RAMBLEは、CARLA Leaderboard 1.0でルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0で38のシナリオをすべて完了し、複雑なトラフィックシナリオと動的トラフィックシナリオの処理の有効性を実証する。このモデルは、自動運転のさらなる研究と開発を支援するために、https://github.com/SCP-CN-001/rambleで論文を受理してオープンソース化される。

関連論文リスト

Large Multimodal Models for Embodied Intelligent Driving: The Next Frontier in Self-Driving? [68.82027978227008]
この記事では、この課題に取り組むために、新しいセマンティクスとポリシーの二重駆動型ハイブリッド決定フレームワークを紹介します。このフレームワークは、意味理解と認知表現のためのLMMと、リアルタイムポリシー最適化のための深層強化学習(DRL)を統合している。本研究は,車線変更計画作業におけるフレームワークの性能優位性を検証するための事例研究である。
論文参考訳（メタデータ） (2026-01-13T11:05:12Z)
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文参考訳（メタデータ） (2025-09-24T13:35:15Z)
AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文参考訳（メタデータ） (2025-09-02T04:32:24Z)
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文参考訳（メタデータ） (2025-01-20T04:00:02Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Continual Learning for Adaptable Car-Following in Dynamic Traffic Environments [16.587883982785]
自動運転技術の継続的な進化には、多様なダイナミックな交通環境に適応できる自動車追従モデルが必要である。従来の学習ベースのモデルは、連続的な学習能力の欠如により、目に見えないトラフィックパターンに遭遇する際のパフォーマンス低下に悩まされることが多い。本稿では,この制限に対処する連続学習に基づく新しい車追従モデルを提案する。
論文参考訳（メタデータ） (2024-07-17T06:32:52Z)
RACER: Rational Artificial Intelligence Car-following-model Enhanced by Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。 RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文参考訳（メタデータ） (2023-12-12T06:21:30Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Eco-Driving Control of Connected and Automated Vehicles using Neural Network based Rollout [0.0]
接続された自動運転車は、エネルギー消費を最小化する可能性がある。既存の決定論的手法は、一般に高い計算とメモリ要求に悩まされる。本研究ではニューラルネットワークを介して実装された階層型マルチ水平最適化フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-16T23:13:51Z)
PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for Traffic Flow Prediction [78.05103666987655]
空間時空間グラフニューラルネットワーク(GNN)モデルは、この問題を解決する最も有望な方法の1つである。本稿では,交通流の正確な予測を行うために,遅延を意識した動的長距離トランスフォーマー(PDFormer)を提案する。提案手法は,最先端の性能を達成するだけでなく,計算効率の競争力も発揮できる。
論文参考訳（メタデータ） (2023-01-19T08:42:40Z)
Bi-Level Optimization Augmented with Conditional Variational Autoencoder for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文参考訳（メタデータ） (2022-12-05T12:56:42Z)
Integrated Decision and Control for High-Level Automated Vehicles by Mixed Policy Gradient and Its Experiment Verification [10.393343763237452]
本稿では,IDC(Integrated Decision and Control)に基づく自己進化型意思決定システムを提案する。制約付き混合ポリシー勾配 (CMPG) と呼ばれるRLアルゴリズムは、IDCの駆動ポリシーを継続的に更新するために提案される。実験結果から, モデルに基づく手法よりも運転能力の向上が期待できることがわかった。
論文参考訳（メタデータ） (2022-10-19T14:58:41Z)
Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文参考訳（メタデータ） (2022-07-05T16:33:20Z)
GINK: Graph-based Interaction-aware Kinodynamic Planning via Reinforcement Learning for Autonomous Driving [10.782043595405831]
都市部などの構造環境下での自律運転に深部強化学習(D)を適用するには,多くの課題がある。本稿では,グラフに基づく意図表現と動的計画のための強化学習を効果的に組み合わせた新しいフレームワークを提案する。この実験は,既存のベースラインと比較して,我々のアプローチの最先端性能を示すものである。
論文参考訳（メタデータ） (2022-06-03T10:37:25Z)
Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文参考訳（メタデータ） (2021-11-23T20:14:02Z)
UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文参考訳（メタデータ） (2021-11-22T10:37:52Z)
Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文参考訳（メタデータ） (2021-07-18T00:00:48Z)
A Deep Reinforcement Learning Approach for Traffic Signal Control Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文参考訳（メタデータ） (2021-07-13T14:11:04Z)
Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文参考訳（メタデータ） (2021-05-03T05:55:30Z)
Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文参考訳（メタデータ） (2021-04-19T11:48:13Z)
Multi-intersection Traffic Optimisation: A Benchmark Dataset and a Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文参考訳（メタデータ） (2021-01-24T03:55:39Z)
An End-to-end Deep Reinforcement Learning Approach for the Long-term Short-term Planning on the Frenet Space [0.0]
本稿では,自動運転車の意思決定と動作計画に向けた,エンドツーエンドの継続的強化学習手法を提案する。初めて、Frenet空間上の状態と行動空間の両方を定義して、走行挙動を道路曲率に変化させないようにする。このアルゴリズムは、フィードバックコントローラが追跡するFrenetフレーム上で連続時間軌道を生成する。
論文参考訳（メタデータ） (2020-11-26T02:40:07Z)
Planning on the fast lane: Learning to interact using attention mechanisms in path integral inverse reinforcement learning [20.435909887810165]
自動走行のための汎用軌道計画アルゴリズムは複雑な報酬関数を利用する。深層学習アプローチは局所的な状況依存報酬関数の予測に成功している。低次元の文脈ベクトルを生成するためにポリシーアテンション機構を用いるニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-07-11T15:25:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。