論文の概要: Accelerating Residual Reinforcement Learning with Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2506.17564v1
- Date: Sat, 21 Jun 2025 03:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.478648
- Title: Accelerating Residual Reinforcement Learning with Uncertainty Estimation
- Title(参考訳): 不確実性推定による残留強化学習の高速化
- Authors: Lakshita Dodeja, Karl Schmeckpeper, Shivam Vats, Thomas Weng, Mingxi Jia, George Konidaris, Stefanie Tellex,
- Abstract要約: 残留強化学習(Residual Reinforcement Learning, RL)は、修正行動を提供する軽量な残留ポリシーを学習することで、事前訓練されたポリシーを適用するための一般的なアプローチである。
残留RLは基本方針全体を微調整するよりもサンプリング効率が高いが、既存の手法はスパース報酬に苦慮し、決定論的基本方針のために設計されている。
本稿では, サンプル効率をさらに向上し, 基本方針に適合させるため, 残留RLの2つの改良点を提案する。
- 参考スコア(独自算出の注目度): 20.516264459225734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual Reinforcement Learning (RL) is a popular approach for adapting pretrained policies by learning a lightweight residual policy that provides corrective actions. While Residual RL is more sample-efficient than finetuning the entire base policy, existing methods struggle with sparse rewards and are designed for deterministic base policies. We propose two improvements to Residual RL that further enhance its sample efficiency and make it suitable for stochastic base policies. First, we leverage uncertainty estimates of the base policy to focus exploration on regions in which the base policy is not confident. Second, we propose a simple modification to off-policy residual learning that allows it to observe base actions and better handle stochastic base policies. We evaluate our method with both Gaussian-based and Diffusion-based stochastic base policies on tasks from Robosuite and D4RL, and compare against state-of-the-art finetuning methods, demo-augmented RL methods, and other residual RL methods. Our algorithm significantly outperforms existing baselines in a variety of simulation benchmark environments. We also deploy our learned polices in the real world to demonstrate their robustness with zero-shot sim-to-real transfer.
- Abstract(参考訳): 残留強化学習(Residual Reinforcement Learning, RL)は、修正行動を提供する軽量な残留ポリシーを学習することで、事前訓練されたポリシーを適用するための一般的なアプローチである。
残留RLは基本方針全体を微調整するよりもサンプリング効率が高いが、既存の手法はスパース報酬に苦慮し、決定論的基本方針のために設計されている。
本稿では,Residual RLの2つの改良点を提案する。
まず、基本方針の不確実性評価を利用して、基本方針が自信のない地域を探索する。
第2に,基本動作を観察し,確率的基本方針をよりよく扱えるような,非政治的残差学習の簡易な修正を提案する。
提案手法を,Robosuite と D4RL のタスクに対するガウス法と拡散法に基づく確率的ベースポリシーの両方を用いて評価し,最先端のファインタニング法,デモ拡張 RL 法,その他の残差 RL 法との比較を行った。
本アルゴリズムは,様々なシミュレーションベンチマーク環境において,既存のベースラインを著しく上回っている。
また、学習した警察を現実世界に展開して、ゼロショット・シム・トゥ・リアル・トランスファーで彼らの堅牢性を実証しています。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。