論文の概要: RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms
- arxiv url: http://arxiv.org/abs/2501.17311v2
- Date: Thu, 06 Feb 2025 10:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:29:43.336751
- Title: RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms
- Title(参考訳): RLPP: 大規模プラットフォーム上でのゼロショット実世界自律レースの残留手法
- Authors: Edoardo Ghignone, Nicolas Baumann, Cheng Hu, Jonathan Wang, Lei Xie, Andrea Carron, Michele Magno,
- Abstract要約: RLベースの残差を持つPure Pursuitコントローラを強化する残差RLフレームワークであるRLPPを提案する。
RLPPはベースラインコントローラのラップタイムを最大6.37%改善し、State-of-the-Artメソッドとのギャップを52%以上縮める。
RLPPはオープンソースツールとして利用可能であり、自律レース研究のさらなる探求と進歩を奨励している。
- 参考スコア(独自算出の注目度): 9.517327026260181
- License:
- Abstract: Autonomous racing presents a complex environment requiring robust controllers capable of making rapid decisions under dynamic conditions. While traditional controllers based on tire models are reliable, they often demand extensive tuning or system identification. Reinforcement Learning (RL) methods offer significant potential due to their ability to learn directly from interaction, yet they typically suffer from the sim-to-real gap, where policies trained in simulation fail to perform effectively in the real world. In this paper, we propose RLPP, a residual RL framework that enhances a Pure Pursuit (PP) controller with an RL-based residual. This hybrid approach leverages the reliability and interpretability of PP while using RL to fine-tune the controller's performance in real-world scenarios. Extensive testing on the F1TENTH platform demonstrates that RLPP improves lap times of the baseline controllers by up to 6.37 %, closing the gap to the State-of-the-Art methods by more than 52 % and providing reliable performance in zero-shot real-world deployment, overcoming key challenges associated with the sim-to-real transfer and reducing the performance gap from simulation to reality by more than 8-fold when compared to the baseline RL controller. The RLPP framework is made available as an open-source tool, encouraging further exploration and advancement in autonomous racing research. The code is available at: www.github.com/forzaeth/rlpp.
- Abstract(参考訳): 自律レースは、動的条件下での迅速な意思決定が可能な堅牢なコントローラを必要とする複雑な環境を示す。
タイヤモデルに基づく従来のコントローラーは信頼性が高いが、広範囲なチューニングやシステム識別を必要とすることが多い。
強化学習法(Reinforcement Learning, RL)は、相互作用から直接学習する能力によって大きな可能性を秘めているが、シミュレーションで訓練されたポリシーが現実世界で効果的に実行できない、模擬と現実のギャップに苦しむのが一般的である。
本稿では,Pure Pursuit (PP) コントローラをRLベースの残差で拡張する残差RLフレームワークである RLPP を提案する。
このハイブリッドアプローチは、実世界のシナリオでコントローラのパフォーマンスを微調整するためにRLを使用して、PPの信頼性と解釈可能性を活用する。
F1TENTHプラットフォーム上での大規模なテストでは、RLPPはベースラインコントローラのラップタイムを最大6.37パーセント改善し、ステート・オブ・ザ・アーツのメソッドとのギャップを52パーセント以上閉鎖し、ゼロショットの現実的デプロイメントにおける信頼性の高いパフォーマンスを提供し、sim-to-real転送に関連する重要な課題を克服し、ベースラインコントローラと比較してシミュレーションから現実へのパフォーマンスギャップを8倍以上に削減している。
RLPPフレームワークはオープンソースツールとして利用可能であり、自律レース研究のさらなる探求と進歩を奨励している。
コードは www.github.com/forzaeth/rlpp で公開されている。
関連論文リスト
- FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control [33.547772623142414]
強化学習(Reinforcement Learning, RL)に基づく交通信号制御(TSC)手法は, 高い学習コストや一般化性の低下といった深刻な問題を提起する。
We propose a novel Federated Imitation Learning (FIL) based framework for multi-intersection TSC, named FitLight。
FitLightはリアルタイムの模倣学習と強化学習へのシームレスな移行を可能にする。
論文 参考訳(メタデータ) (2025-02-17T15:48:46Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing [5.467140383171385]
本研究では, 可変インピーダンスを有するロボット研磨のためのハイブリッドRLアルゴリズムCHEQの実験的検討を行った。
ハードウェア上では、CHEQは効果的な研磨動作を実現し、8時間のトレーニングを必要とせず、5回の障害しか発生しない。
その結果、ハードウェア上で直接訓練された実世界のコンタクトリッチなタスクに対して、適応型ハイブリッドRLの可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-01-14T10:13:41Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on
Real-World Robots [17.710172337571617]
深層強化学習(RL)エージェントは、トレーニング環境と実行環境のミスマッチにより、現実世界にデプロイされた時にエラーを起こす傾向がある。
本稿では,RLポリシーと従来型の手作りコントローラの強みを組み合わせた,新しい不確実性対応デプロイメント戦略を提案する。
実世界の2つの連続制御タスクにおいて、BCFはスタンドアロンのポリシーとコントローラの両方に優れる有望な結果を示す。
論文 参考訳(メタデータ) (2021-12-10T02:13:01Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。