論文の概要: Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data
- arxiv url: http://arxiv.org/abs/2405.05468v1
- Date: Wed, 8 May 2024 23:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:32:26.003944
- Title: Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data
- Title(参考訳): オフラインデータとオンラインデータの両方を用いたモデル自由ロバスト$φ$-Divergence強化学習
- Authors: Kishan Panaganti, Adam Wierman, Eric Mazumdar,
- Abstract要約: 本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。
我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
- 参考スコア(独自算出の注目度): 16.995406965407003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The robust $\phi$-regularized Markov Decision Process (RRMDP) framework focuses on designing control policies that are robust against parameter uncertainties due to mismatches between the simulator (nominal) model and real-world settings. This work makes two important contributions. First, we propose a model-free algorithm called Robust $\phi$-regularized fitted Q-iteration (RPQ) for learning an $\epsilon$-optimal robust policy that uses only the historical data collected by rolling out a behavior policy (with robust exploratory requirement) on the nominal model. To the best of our knowledge, we provide the first unified analysis for a class of $\phi$-divergences achieving robust optimal policies in high-dimensional systems with general function approximation. Second, we introduce the hybrid robust $\phi$-regularized reinforcement learning framework to learn an optimal robust policy using both historical data and online sampling. Towards this framework, we propose a model-free algorithm called Hybrid robust Total-variation-regularized Q-iteration (HyTQ: pronounced height-Q). To the best of our knowledge, we provide the first improved out-of-data-distribution assumption in large-scale problems with general function approximation under the hybrid robust $\phi$-regularized reinforcement learning framework. Finally, we provide theoretical guarantees on the performance of the learned policies of our algorithms on systems with arbitrary large state space.
- Abstract(参考訳): 堅牢な$\phi$-regularized Markov Decision Process (RRMDP)フレームワークは、シミュレータ(nominal)モデルと現実世界の設定のミスマッチによるパラメータの不確実性に対して堅牢な制御ポリシーの設計に焦点を当てている。
この作品は2つの重要な貢献をしている。
まず,ロバスト$\phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーなアルゴリズムを提案する。
我々の知識を最大限に活用するために、一般関数近似を持つ高次元システムにおいて、ロバストな最適ポリシーを達成する$\phi$-divergencesのクラスに対して、最初の統一解析を提供する。
第2に、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学習するために、ハイブリッドロバストな$\phi$正規化強化学習フレームワークを導入する。
この枠組みに向けて,Hybrid robust Total-variation-regularized Q-iteration (HyTQ: pronounced height-Q) と呼ばれるモデルレスアルゴリズムを提案する。
我々の知識を最大限に活用するために、我々は、汎用関数近似を用いた大規模問題において、最初の改良されたデータ分配仮定を、ハイブリッドロバストな$\phi$-regularized reinforcement learning frameworkの下で提供する。
最後に、任意の大きな状態空間を持つシステム上でのアルゴリズムの学習ポリシーの性能に関する理論的保証を提供する。
関連論文リスト
- Aligning Large Language Models via Self-Steering Optimization [78.42826116686435]
本稿では,高品質な選好信号を自律的に生成するアルゴリズムであるSelf-Steering Optimization(SSO$)を紹介する。
SSO$は、選択された応答と拒否された応答の間に一貫したギャップを確保することで、信号の精度を維持する。
我々は、Qwen2とLlama3.1という2つの基礎モデルを用いて、$SSO$の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Optimization for Robustness Evaluation beyond $\ell_p$ Metrics [11.028091609739738]
敵対的攻撃に対するディープラーニングモデルの実証的評価は、非自明な制約付き最適化問題を解くことを伴う。
本稿では,PyGRANSO, With Constraint-Folding (PWCF) をブレンドして信頼性と汎用性を向上するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-02T20:48:05Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。