論文の概要: Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.03497v1
- Date: Fri, 03 Apr 2026 22:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.610469
- Title: Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving
- Title(参考訳): Sim2Real-AD: リアルタイム自動運転におけるVLM誘導強化学習のデプロイのためのモジュール型Sim-to-Realフレームワーク
- Authors: Zilin Huang, Zhengyang Wan, Zihao Sheng, Boyue Wang, Junwei You, Yue Leng, Sikai Chen,
- Abstract要約: 本稿では,VLM誘導型RLポリシーを実車にゼロショット・シミュレートするためのモジュラーフレームワークであるSim2Real-ADを提案する。
我々の知る限り、本研究はCARLAで訓練されたVLM誘導RLポリシーを実車にゼロショットクローズドループで展開した最初の事例である。
- 参考スコア(独自算出の注目度): 13.424737198969247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying reinforcement learning policies trained in simulation to real autonomous vehicles remains a fundamental challenge, particularly for VLM-guided RL frameworks whose policies are typically learned with simulator-native observations and simulator-coupled action semantics that are unavailable on physical platforms. This paper presents Sim2Real-AD, a modular framework for zero-shot sim-to-real transfer of CARLA-trained VLM-guided RL policies to full-scale vehicles without any real-world RL training data. The framework decomposes the transfer problem into four components: a Geometric Observation Bridge (GOB) that converts monocular front-view images into simulator-compatible bird's-eye-view (BEV) observations, a Physics-Aware Action Mapping (PAM) that translates policy outputs into platform-agnostic physical commands, a Two-Phase Progressive Training (TPT) strategy that stabilizes adaptation by separating action-space and observation-space transfer, and a Real-time Deployment Pipeline (RDP) that integrates perception, policy inference, control conversion, and safety monitoring for closed-loop execution. Simulation experiments show that the framework preserves the relative performance ordering of representative RL algorithms across different reward paradigms and validate the contribution of each module. Zero-shot deployment on a full-scale Ford E-Transit achieves success rates of 90%, 80%, and 75% in car-following, obstacle avoidance, and stop-sign interaction scenarios, respectively. To the best of our knowledge, this study is among the first to demonstrate zero-shot closed-loop deployment of a CARLA-trained VLM-guided RL policy on a full-scale real vehicle without any real-world RL training data. The demo video and code are available at: https://zilin-huang.github.io/Sim2Real-AD-website/.
- Abstract(参考訳): シミュレーションで訓練された強化学習ポリシーを現実の自動運転車に展開することは、特に物理プラットフォームでは利用できないシミュレータネイティブな観察とシミュレータが結合したアクションセマンティクスで一般的に学習されるVLM誘導のRLフレームワークにとって、根本的な課題である。
本稿では,CARLAで訓練されたVLM誘導型RLポリシーを実世界のRL訓練データなしで実車にゼロショット・シミュレートするためのモジュラーフレームワークであるSim2Real-ADを提案する。
このフレームワークは、モノクロフロントビュー画像をシミュレータ互換のバードアイビュー(BEV)観測に変換する幾何学観測橋(GOB)と、ポリシー出力をプラットフォームに依存しない物理コマンドに変換する物理認識アクションマッピング(PAM)と、アクション空間と観測空間を分離して適応を安定化する2相プログレッシブトレーニング(TPT)戦略と、知覚、ポリシー推論、制御変換、クローズドループ実行のための安全監視を統合するリアルタイムデプロイメントパイプライン(RDP)の4つのコンポーネントに分解する。
シミュレーション実験により,本フレームワークは,様々な報酬パラダイムにまたがる代表的RLアルゴリズムの相対的な性能順序を保ち,各モジュールの寄与を検証した。
フルスケールのFord E-Transitへのゼロショットデプロイメントは、それぞれ、自動車追従、障害物回避、ストップサインインタラクションシナリオにおいて、90%、80%、75%の成功率を達成する。
我々の知る限りでは、この研究はCARLAで訓練されたVLM誘導型RLポリシーを実世界のRL訓練データなしで実車にゼロショットクローズドループで展開した最初の事例である。
デモビデオとコードは、https://zilin-huang.github.io/Sim2Real-AD-website/.com/で公開されている。
関連論文リスト
- Dynamics-Decoupled Trajectory Alignment for Sim-to-Real Transfer in Reinforcement Learning for Autonomous Driving [37.61391230495979]
強化学習(RL)はロボット工学において有望だが、実際の車両にRLを配備することは依然として難しい。
タイヤ特性、路面条件、空力障害、車両負荷などの要因により、実世界の力学を正確にモデル化することは不可能である。
本研究では,移動計画と車両制御を空間的・時間的アライメント戦略で分離する枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-10T14:45:24Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Purpose in the Machine: Do Traffic Simulators Produce Distributionally
Equivalent Outcomes for Reinforcement Learning Applications? [35.719833726363085]
本研究は,交通アプリケーションのための強化学習(RL)エージェントの訓練によく使用される2つのシミュレータであるCityFlowとSUMOに焦点を当てる。
制御された仮想実験では、運転者の挙動やシミュレーションスケールが、これらのシミュレータからRL関連測度における分布同値性を示す証拠を見出した。
これらの結果は,交通シミュレータはRLトレーニングのデウス・エグゼクティブ・マシンナではないことを示唆している。
論文 参考訳(メタデータ) (2023-11-14T01:05:14Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving
Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。
これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。
これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文 参考訳(メタデータ) (2022-10-25T17:50:36Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。