論文の概要: Efficient Real-World Autonomous Racing via Attenuated Residual Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.12960v1
- Date: Fri, 13 Mar 2026 13:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.090367
- Title: Efficient Real-World Autonomous Racing via Attenuated Residual Policy Optimization
- Title(参考訳): 減衰残留政策最適化による実世界自律レースの効率化
- Authors: Raphael Trumpp, Denis Hoornaert, Mirco Theile, Marco Caccamo,
- Abstract要約: 残留ポリシー学習(Residual Policy Learning, RPL)は、様々なロボットアプリケーションで高い性能を示している。
残留政策最適化を減らしたRPLの拡張($-RPO)を導入する。
シミュレーションとゼロショットの現実世界からRobocer車へのトランスファーでは、$-RPOはシステムの複雑さを低減させるだけでなく、ベースラインよりも運転性能も向上する。
- 参考スコア(独自算出の注目度): 3.1913818173354827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual policy learning (RPL), in which a learned policy refines a static base policy using deep reinforcement learning (DRL), has shown strong performance across various robotic applications. Its effectiveness is particularly evident in autonomous racing, a domain that serves as a challenging benchmark for real-world DRL. However, deploying RPL-based controllers introduces system complexity and increases inference latency. We address this by introducing an extension of RPL named attenuated residual policy optimization ($α$-RPO). Unlike standard RPL, $α$-RPO yields a standalone neural policy by progressively attenuating the base policy, which initially serves to bootstrap learning. Furthermore, this mechanism enables a form of privileged learning, where the base policy is permitted to use sensor modalities not required for final deployment. We design $α$-RPO to integrate seamlessly with PPO, ensuring that the attenuated influence of the base controller is dynamically compensated during policy optimization. We evaluate $α$-RPO by building a framework for 1:10-scaled autonomous racing around it. In both simulation and zero-shot real-world transfer to Roboracer cars, $α$-RPO not only reduces system complexity but also improves driving performance compared to baselines - demonstrating its practicality for robotic deployment. Our code is available at: https://github.com/raphajaner/arpo_racing.
- Abstract(参考訳): 残留ポリシー学習(Residual Policy Learning, RPL)では, 深部強化学習(DRL)を用いた静的ベースポリシーを改良し, 各種ロボットアプリケーションにおいて高い性能を示した。
その効果は、現実世界のDRLの挑戦的なベンチマークとして機能する、自律レースにおいて特に顕著である。
しかし、RPLベースのコントローラのデプロイは、システムの複雑さを導入し、推論遅延を増大させる。
この問題に対処するために, 減衰残留政策最適化(α$-RPO)と呼ばれるRPLの拡張を導入する。
標準的なRPLとは異なり、$α$-RPOは、学習のブートストラップに役立つベースポリシーを徐々に減らし、スタンドアロンの神経ポリシーをもたらす。
さらに、このメカニズムは、最終展開に必要としないセンサモードの使用を基本方針で許可する特権学習の形式を可能にする。
我々はPPOとのシームレスな統合を実現するために$α$-RPOを設計し、基本制御器の減衰効果がポリシー最適化中に動的に補償されることを保証する。
1:10スケールの自律レースのためのフレームワークを構築することで、$α$-RPOを評価した。
Roboracer車へのシミュレーションとゼロショットのリアルタイムトランスファーの両方において、$α$-RPOはシステムの複雑さを低減させるだけでなく、ベースラインよりも駆動性能を向上させる。
私たちのコードは、https://github.com/raphajaner/arpo_racing.comで利用可能です。
関連論文リスト
- LLMs Can Learn to Reason Via Off-Policy RL [17.2941334301927]
LLM(Large Language Models)の強化学習アプローチでは、PPOやGRPOといった政治アルゴリズムが頻繁に使用される。
タグ付き推論ポリシー(OAPL)を用いた最適アドバンテージに基づく政策最適化法(OAPL)を提案する。
OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。
論文 参考訳(メタデータ) (2026-02-22T22:12:51Z) - Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning [31.843129392507716]
Jackpotは、ポリシーとロールアウトモデルを共同で更新する統合トレーニング目標を統合するフレームワークである。
我々の理論的分析は、OBRSが制御可能な受理予算の下で、目標分布に近いロールアウト分布を一貫して移動していることを示している。
論文 参考訳(メタデータ) (2026-02-05T18:57:01Z) - Accelerating Residual Reinforcement Learning with Uncertainty Estimation [20.516264459225734]
残留強化学習(Residual Reinforcement Learning, RL)は、修正行動を提供する軽量な残留ポリシーを学習することで、事前訓練されたポリシーを適用するための一般的なアプローチである。
残留RLは基本方針全体を微調整するよりもサンプリング効率が高いが、既存の手法はスパース報酬に苦慮し、決定論的基本方針のために設計されている。
本稿では, サンプル効率をさらに向上し, 基本方針に適合させるため, 残留RLの2つの改良点を提案する。
論文 参考訳(メタデータ) (2025-06-21T03:18:01Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。