論文の概要: Reset-Free Reinforcement Learning for Real-World Agile Driving: An Empirical Study
- arxiv url: http://arxiv.org/abs/2604.07672v1
- Date: Thu, 09 Apr 2026 00:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.613676
- Title: Reset-Free Reinforcement Learning for Real-World Agile Driving: An Empirical Study
- Title(参考訳): 実世界のアジャイル運転のためのリセットなし強化学習:実証的研究
- Authors: Kohei Honda, Hirotaka Hosogaya,
- Abstract要約: 本稿では,実世界のアジャイル運転におけるリセットフリー強化学習(RL)の実証的研究について述べる。
モデル予測経路積分制御(MPPI)をリセットポリシーと残差学習の基本ポリシーの両方に採用する。
残差学習を持つSACはシミュレーションの最も高いリターンを達成するが、TD-MPC2のみが物理プラットフォーム上のMPPIベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 3.038642416291856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an empirical study of reset-free reinforcement learning (RL) for real-world agile driving, in which a physical 1/10-scale vehicle learns continuously on a slippery indoor track without manual resets. High-speed driving near the limits of tire friction is particularly challenging for learning-based methods because complex vehicle dynamics, actuation delays, and other unmodeled effects hinder both accurate simulation and direct sim-to-real transfer of learned policies. To enable autonomous training on a physical platform, we employ Model Predictive Path Integral control (MPPI) as both the reset policy and the base policy for residual learning, and systematically compare three representative RL algorithms, i.e., PPO, SAC, and TD-MPC2, with and without residual learning in simulation and real-world experiments. Our results reveal a clear gap between simulation and real-world: SAC with residual learning achieves the highest returns in simulation, yet only TD-MPC2 consistently outperforms the MPPI baseline on the physical platform. Moreover, residual learning, while clearly beneficial in simulation, fails to transfer its advantage to the real world and can even degrade performance. These findings reveal that reset-free RL in the real world poses unique challenges absent from simulation, calling for further algorithmic development tailored to training in the wild.
- Abstract(参考訳): 本稿では、実世界におけるアジャイル運転におけるリセットフリー強化学習(RL)の実証的研究を行い、物理的に1/10スケールの車両が手動リセットなしで滑りやすい屋内軌道上で連続的に学習することを示した。
タイヤ摩擦の限界付近での高速運転は、複雑な車両力学、アクティベーション遅延などの非モデル化効果が、正確なシミュレーションと学習ポリシーの直接的シミュレートの両方を妨げるため、学習ベースの手法では特に困難である。
物理プラットフォーム上での自律的なトレーニングを実現するために,モデル予測パス積分制御(MPPI)をリセットポリシと残差学習の基本ポリシの両方として採用し,シミュレーションや実世界の実験において残差学習を伴わずに,PPO,SAC,TD-MPC2の3つの代表的なRLアルゴリズムを体系的に比較した。
残差学習を持つSACはシミュレーションの最も高いリターンを達成するが、TD-MPC2のみが物理プラットフォーム上のMPPIベースラインを一貫して上回っている。
さらに、残留学習は、明らかにシミュレーションにおいて有益であるが、実世界への優位性の移譲に失敗し、性能を低下させる。
これらの結果から,実世界におけるリセットフリーなRLは,野生でのトレーニングに適したさらなるアルゴリズム開発を求めるため,シミュレーションから欠落するユニークな課題を生じていることが明らかとなった。
関連論文リスト
- Incremental Residual Reinforcement Learning Toward Real-World Learning for Social Navigation [2.1204495827342438]
ソーシャルナビゲーションは重要な課題として現れ、深層強化学習(RL)アプローチの研究を推進している。
エージェントが物理的な環境で直接操作しながら学習する現実世界のRLは、この問題に対して有望な解決策を提供する。
本研究では,基本方針に対する残差のみをトレーニングすることで学習効率を向上させるインクリメンタル残差RL(IRRL)を提案する。
論文 参考訳(メタデータ) (2026-04-09T08:08:37Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Simulation Priors for Data-Efficient Deep Learning [56.525770511247934]
SimPELは、第一原理モデルとデータ駆動学習を効率的に組み合わせる手法である。
我々は,生物,農業,ロボットなど多様なシステムでSimPELを評価した。
意思決定において,SimPELはモデルに基づく強化学習において,シミュレーションと現実のギャップを埋めることを示した。
論文 参考訳(メタデータ) (2025-09-06T14:36:41Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。