Fugu-MT 論文翻訳(概要): Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage

論文の概要: Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage

arxiv url: http://arxiv.org/abs/2305.09659v2
Date: Tue, 22 Aug 2023 14:23:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 21:01:45.068823
Title: Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage
Title（参考訳）: double pessimismは分散的ロバストなオフライン強化学習に有効である:ジェネリックアルゴリズムとロバスト部分カバレッジ
Authors: Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong
Abstract要約: 頑健なオフライン強化学習(ロバストオフラインRL)について検討する。我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。 P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
参考スコア（独自算出の注目度）: 15.858892479232656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study distributionally robust offline reinforcement learning (robust offline RL), which seeks to find an optimal policy purely from an offline dataset that can perform well in perturbed environments. In specific, we propose a generic algorithm framework called Doubly Pessimistic Model-based Policy Optimization ($P^2MPO$), which features a novel combination of a flexible model estimation subroutine and a doubly pessimistic policy optimization step. Notably, the double pessimism principle is crucial to overcome the distributional shifts incurred by (i) the mismatch between the behavior policy and the target policies; and (ii) the perturbation of the nominal model. Under certain accuracy conditions on the model estimation subroutine, we prove that $P^2MPO$ is sample-efficient with robust partial coverage data, which only requires the offline data to have good coverage of the distributions induced by the optimal robust policy and the perturbed models around the nominal model. By tailoring specific model estimation subroutines for concrete examples of RMDPs, including tabular RMDPs, factored RMDPs, kernel and neural RMDPs, we prove that $P^2MPO$ enjoys a $\tilde{\mathcal{O}}(n^{-1/2})$ convergence rate, where $n$ is the dataset size. We highlight that all these examples, except tabular RMDPs, are first identified and proven tractable by this work. Furthermore, we continue our study of robust offline RL in the robust Markov games (RMGs). By extending the double pessimism principle identified for single-agent RMDPs, we propose another algorithm framework that can efficiently find the robust Nash equilibria among players using only robust unilateral (partial) coverage data. To our best knowledge, this work proposes the first general learning principle -- double pessimism -- for robust offline RL and shows that it is provably efficient with general function approximation.
Abstract（参考訳）: 本稿では,分散的に堅牢なオフライン強化学習(robust offline rl)について検討する。具体的には、フレキシブルモデル推定サブルーチンと2つの悲観的ポリシー最適化ステップを組み合わせた、Double Pessimistic Model-based Policy Optimization(P^2MPO$)という汎用アルゴリズムフレームワークを提案する。特に、二重悲観主義原理は、引き起こされる分布シフトを克服するために重要である。 (i)行動方針と対象政策のミスマッチ (ii)名目モデルの摂動モデル推定サブルーチン上の一定の精度条件の下では、$p^2mpo$ はロバストな部分被覆データでサンプル効率が良く、オフラインデータは最適ロバストポリシーと名目モデル周辺の摂動モデルによって引き起こされる分布を適切にカバーすることが要求される。表式RMDP, 因子RMDP, カーネル, ニューラルRMDPなど, RMDPの具体的な例として, 特定のモデル推定サブルーチンを調整することにより, $P^2MPO$が$\tilde{\mathcal{O}}(n^{-1/2})$収束率で、$n$がデータセットサイズであることを示す。これらの例は、表付きRMDPを除いて、この研究によって最初に同定され、証明可能であることを強調する。さらに、ロバストマルコフゲーム(RMG)におけるロバストオフラインRLの研究も継続する。単一エージェントRMDPで特定される二重悲観主義の原理を拡張することにより、ロバストな一方的(部分的)カバレッジデータのみを用いて、プレイヤー間の堅牢なナッシュ平衡を効率的に見つけることができる別のアルゴリズムフレームワークを提案する。我々の知る限り、この研究は、ロバストなオフラインRLのための最初の一般学習原理である二重悲観主義を提案し、一般関数近似で証明可能な効率であることを示す。

関連論文リスト

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
Distributionally Robust Optimization with Adversarial Data Contamination [36.409282287280185]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文参考訳（メタデータ） (2025-07-14T18:34:10Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文参考訳（メタデータ） (2024-11-27T18:57:03Z)
Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data [16.995406965407003]
本稿では,ロバスト$phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーアルゴリズムを提案する。我々はまた、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学ぶために、$phi$-regularized reinforcement learning frameworkを導入した。
論文参考訳（メタデータ） (2024-05-08T23:52:37Z)
Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-14T07:27:30Z)
Online non-parametric likelihood-ratio estimation by Pearson-divergence functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文参考訳（メタデータ） (2023-11-03T13:20:11Z)
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文参考訳（メタデータ） (2023-01-30T07:53:53Z)
Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-28T05:18:20Z)
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。 textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-05-26T19:13:55Z)
Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文参考訳（メタデータ） (2022-02-15T15:39:30Z)
Sample Complexity of Robust Reinforcement Learning with a Generative Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文参考訳（メタデータ） (2021-12-02T18:55:51Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。