論文の概要: GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment
- arxiv url: http://arxiv.org/abs/2604.28111v1
- Date: Thu, 30 Apr 2026 16:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.208632
- Title: GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment
- Title(参考訳): GSDrive:3次元ガウス平滑環境を用いた多モード軌道探査による運転ポリシーの強化
- Authors: Ziang Guo, Min Chen, Xuefeng Zhang, Yixiao Zhou, Zufeng Zhang, Dzmitry Tsetserukou,
- Abstract要約: E2E(End-to-end autonomous driving)は、知覚入力を直接駆動動作に変換するための有望なアプローチである。
GSDriveは,E2E駆動ポリシーの改善において,3次元ガウシアンスプラッティング(3DGS)を微分可能な物理ベースの報酬形成に活用するフレームワークである。
- 参考スコア(独自算出の注目度): 6.634302950021396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end (E2E) autonomous driving presents a promising approach for translating perceptual inputs directly into driving actions. However, prohibitive annotation costs and temporal data quality degradation hinder long-term real-world deployment. While combining imitation learning (IL) and reinforcement learning (RL) is a common strategy for policy improvement, conventional RL training relies on delayed, event-based rewards-policies learn only from catastrophic outcomes such as collisions, leading to premature convergence to suboptimal behaviors. To address these limitations, we introduce GSDrive, a framework that exploits 3D Gaussian Splatting (3DGS) for differentiable, physics-based reward shaping in E2E driving policy improvement. Our method incorporates a flow matching-based trajectory predictor within the 3DGS simulator, enabling multi-mode trajectory probing where candidate trajectories are rolled out to assess prospective rewards. This establishes a bidirectional knowledge exchange between IL and RL by grounding reward functions in physically simulated interaction signals, offering immediate dense feedback instead of sparse catastrophic events. Evaluated on the reconstructed nuScenes dataset, our method surpasses existing simulation-based RL driving approaches in closed-loop experiments. Code is available at https://github.com/ZionGo6/GSDrive.
- Abstract(参考訳): E2E(End-to-end autonomous driving)は、知覚入力を直接駆動動作に変換するための有望なアプローチである。
しかし、禁止的なアノテーションコストと時間的データ品質の低下は、長期の現実世界の展開を妨げる。
模倣学習(IL)と強化学習(RL)を組み合わせることは、政策改善の一般的な戦略であるが、従来のRLトレーニングは遅延した事象に基づく報奨政策に依存し、衝突のような破滅的な結果からのみ学習し、短期的な最適行動への収束をもたらす。
これらの制約に対処するため,E2E駆動ポリシーの改善において,微分可能な物理ベースの報酬形成のために3Dガウス・スプレイティング(3DGS)を利用するフレームワークであるGSDriveを紹介した。
提案手法では,3DGSシミュレータ内にフローマッチングに基づく軌道予測器を組み込んで,候補軌道のロールアウトを行うマルチモード軌道探索を可能にする。
これにより、物理的にシミュレートされた相互作用信号の報酬関数を基底にしてILとRL間の双方向の知識交換が確立される。
再構成したnuScenesデータセットに基づいて,本手法はクローズドループ実験における既存のシミュレーションベースRL駆動手法を超越する。
コードはhttps://github.com/ZionGo6/GSDriveで入手できる。
関連論文リスト
- Physics-Informed Reinforcement Learning of Spatial Density Velocity Potentials for Map-Free Racing [73.88859384645264]
Out-Of-Distribution (OOD) の様々なレーストラックへの一般化は、機械学習(ML)を用いて、エンドツーエンド制御のためのセンサデータと車両アクチュエーターの間の数学的関係を符号化する。
本稿では,非幾何学的,物理インフォームド報酬を用いた深度測定のスペクトル分布から非線形車両動特性をパラメータ化して,ニューラルネットワーク(ANN)による車両の時間最適・乗換レース制御を推定するDRL法を提案する。
このポリシーは、経験的なパセジカタイヤモデルに似たタイヤのダイナミックスで摩擦円を最大化することで、OODトラックの12%で人間のデモより優れています。
論文 参考訳(メタデータ) (2026-04-10T17:12:07Z) - PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning [23.599241673009956]
Pseudo-simulation-based RL method for closed-loop end-to-end autonomous driving, PerlAD。
オフラインデータセットに基づいて、PerlADはベクトル空間で動作する擬似シミュレーションを構築し、効率的でレンダリング不要なトライアルとエラーのトレーニングを可能にする。
PerlADはBench2Driveベンチマークで最先端のパフォーマンスを達成し、以前のE2E RL法を10.29%上回った。
論文 参考訳(メタデータ) (2026-03-16T07:09:07Z) - Offline Reinforcement Learning for End-to-End Autonomous Driving [1.2891210250935148]
エンドツーエンド(E2E)自律走行モデルは、カメライメージのみを入力として取り、将来の軌道を直接予測する。
オンライン強化学習(RL)は、ILによる問題を緩和する可能性がある。
カメラのみのE2EオフラインRLフレームワークを導入し、追加の探索を行わず、固定されたシミュレータデータセットのみをトレーニングする。
論文 参考訳(メタデータ) (2025-12-21T09:21:04Z) - ZTRS: Zero-Imitation End-to-end Autonomous Driving with Trajectory Scoring [52.195295396336526]
ZTRS(Zero-Imitation End-to-End Autonomous Driving with Trajectory Scoring)は、情報を失うことなくセンサー入力と堅牢な計画のためのRLトレーニングという、両方の世界の強みを組み合わせたフレームワークである。
ZTRSは、Navtest、Navhard、HUGSIMの3つのベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-10-28T06:26:36Z) - RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning [54.52545900359868]
3DGSをベースとしたエンドツーエンド自動運転のためのクローズドループ強化学習フレームワークRADを提案する。
安全性を高めるため、我々は、安全クリティカルな事象に効果的に対応し、現実世界の因果関係を理解するために、政策の指針となる特別報酬を設計する。
IL法と比較して、RADは閉ループのほとんどの測定値において、特に3倍の衝突速度を示す。
論文 参考訳(メタデータ) (2025-02-18T18:59:21Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Integrating Deep Reinforcement Learning with Model-based Path Planners
for Automated Driving [0.0]
本稿では、経路計画管を視覚ベースのDRLフレームワークに統合するためのハイブリッドアプローチを提案する。
要約すると、DRLエージェントは、パスプランナーのウェイポイントをできるだけ近くに追従するように訓練される。
実験の結果,提案手法は経路を計画し,ランダムに選択した起点-終点間を移動可能であることがわかった。
論文 参考訳(メタデータ) (2020-02-02T17:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。