論文の概要: Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization
- arxiv url: http://arxiv.org/abs/2411.18612v1
- Date: Wed, 27 Nov 2024 18:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:49.604659
- Title: Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization
- Title(参考訳): 線形構造を持つ$f$-divergence正規化を用いたロバストオフライン強化学習
- Authors: Cheng Tang, Zhishuai Liu, Pan Xu,
- Abstract要約: 我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
- 参考スコア(独自算出の注目度): 10.465789490644031
- License:
- Abstract: The Distributionally Robust Markov Decision Process (DRMDP) is a popular framework for addressing dynamics shift in reinforcement learning by learning policies robust to the worst-case transition dynamics within a constrained set. However, solving its dual optimization oracle poses significant challenges, limiting theoretical analysis and computational efficiency. The recently proposed Robust Regularized Markov Decision Process (RRMDP) replaces the uncertainty set constraint with a regularization term on the value function, offering improved scalability and theoretical insights. Yet, existing RRMDP methods rely on unstructured regularization, often leading to overly conservative policies by considering transitions that are unrealistic. To address these issues, we propose a novel framework, the $d$-rectangular linear robust regularized Markov decision process ($d$-RRMDP), which introduces a linear latent structure into both transition kernels and regularization. For the offline RL setting, where an agent learns robust policies from a pre-collected dataset in the nominal environment, we develop a family of algorithms, Robust Regularized Pessimistic Value Iteration (R2PVI), employing linear function approximation and $f$-divergence based regularization terms on transition kernels. We provide instance-dependent upper bounds on the suboptimality gap of R2PVI policies, showing these bounds depend on how well the dataset covers state-action spaces visited by the optimal robust policy under robustly admissible transitions. This term is further shown to be fundamental to $d$-RRMDPs via information-theoretic lower bounds. Finally, numerical experiments validate that R2PVI learns robust policies and is computationally more efficient than methods for constrained DRMDPs.
- Abstract(参考訳): DRMDP(Distributedally Robust Markov Decision Process)は、制約セット内の最悪の遷移ダイナミクスに堅牢な学習ポリシーによって強化学習のダイナミクスシフトに対処する一般的なフレームワークである。
しかし、その双対最適化オラクルの解法は、理論解析と計算効率を制限し、大きな課題をもたらす。
最近提案されたRobust Regularized Markov Decision Process (RRMDP)は、不確実性セットの制約を値関数上の正規化項に置き換え、スケーラビリティと理論的洞察を改善した。
しかし、既存のRTMDP法は非構造正規化に依存しており、しばしば非現実的な遷移を考えることによって過度に保守的な政策につながる。
これらの問題に対処するため、我々は、新しいフレームワークである$d$-rectangular linear robust regularized Markov decision process(d$-RRMDP)を提案し、遷移カーネルと正規化の両方に線形潜在構造を導入する。
オフラインのRL設定では、エージェントが名目環境で事前コンパイルされたデータセットからロバスト正規化ペシミスティック値イテレーション(R2PVI)というアルゴリズムのファミリを学習し、線形関数近似と$f$-divergenceに基づくトランジションカーネル上の正規化項を用いる。
我々は、R2PVIポリシーの最適部分ギャップのインスタンス依存上界を提供し、これらの境界は、頑強に許容される遷移の下で、最適なロバストなポリシーが訪れた状態-作用空間をどのようにカバーするかに依存することを示す。
この項は情報理論の下界を通した$d$-RRMDPsの基本であることがさらに示されている。
最後に、R2PVIはロバストなポリシーを学習し、制約されたDRMDPの手法よりも計算効率が良いことを検証する。
関連論文リスト
- Policy Gradient for Robust Markov Decision Processes [16.281897051782863]
本稿では、ロバストなマルコフ決定過程(MDP)を解くために、新しいポリシー勾配法であるダブルループロバストポリシーミラーDescent(MD)を提案する。
MDは、イテレーション毎の適応耐性を持つポリシー最適化に一般的なミラー降下更新ルールを採用し、グローバルな最適ポリシーへの収束を保証する。
我々は,直接パラメータ化とソフトマックスパラメータ化の両方の下での新しい収束結果を含むMDの包括的解析を行い,トランジションミラー・アセンション(TMA)による内部問題の解に対する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-29T15:16:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating
The Worst Kernel [46.373217780462944]
EWoKはRMDPを解くための新しいオンライン手法で、Kernelを見積もって堅牢なポリシーを学ぶ。
EWoKは、学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。
簡単なカートポールから高次元DeepMindコントロールスイート環境にまたがる実験により,EWoKの有効性と適用性を示した。
論文 参考訳(メタデータ) (2023-06-09T12:45:41Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints [8.840221198764482]
非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。
本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-28T07:18:29Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。