論文の概要: Corruption-Robust Offline Reinforcement Learning with General Function
Approximation
- arxiv url: http://arxiv.org/abs/2310.14550v2
- Date: Tue, 14 Nov 2023 06:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 18:01:37.116223
- Title: Corruption-Robust Offline Reinforcement Learning with General Function
Approximation
- Title(参考訳): 一般関数近似を用いた破壊・破壊オフライン強化学習
- Authors: Chenlu Ye, Rui Yang, Quanquan Gu, Tong Zhang
- Abstract要約: 一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
- 参考スコア(独自算出の注目度): 60.91257031278004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of corruption robustness in offline reinforcement
learning (RL) with general function approximation, where an adversary can
corrupt each sample in the offline dataset, and the corruption level
$\zeta\geq0$ quantifies the cumulative corruption amount over $n$ episodes and
$H$ steps. Our goal is to find a policy that is robust to such corruption and
minimizes the suboptimality gap with respect to the optimal policy for the
uncorrupted Markov decision processes (MDPs). Drawing inspiration from the
uncertainty-weighting technique from the robust online RL setting
\citep{he2022nearly,ye2022corruptionrobust}, we design a new uncertainty weight
iteration procedure to efficiently compute on batched samples and propose a
corruption-robust algorithm for offline RL. Notably, under the assumption of
single policy coverage and the knowledge of $\zeta$, our proposed algorithm
achieves a suboptimality bound that is worsened by an additive factor of
$\mathcal O(\zeta \cdot (\text{CC}(\lambda,\hat{\mathcal F},\mathcal
Z_n^H))^{1/2} (C(\hat{\mathcal F},\mu))^{-1/2} n^{-1})$ due to the corruption.
Here $\text{CC}(\lambda,\hat{\mathcal F},\mathcal Z_n^H)$ is the coverage
coefficient that depends on the regularization parameter $\lambda$, the
confidence set $\hat{\mathcal F}$, and the dataset $\mathcal Z_n^H$, and
$C(\hat{\mathcal F},\mu)$ is a coefficient that depends on $\hat{\mathcal F}$
and the underlying data distribution $\mu$. When specialized to linear MDPs,
the corruption-dependent error term reduces to $\mathcal O(\zeta d n^{-1})$
with $d$ being the dimension of the feature map, which matches the existing
lower bound for corrupted linear MDPs. This suggests that our analysis is tight
in terms of the corruption-dependent term.
- Abstract(参考訳): 一般関数近似を用いて,オフライン強化学習(rl)における腐敗のロバスト性に関する問題を検討し,オフラインデータセット内の各サンプルを敵が破壊でき,腐敗レベル$\zeta\geq0$がn$エピソードとh$ステップの累積汚損量を定量化する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
ロバストなオンラインrl設定 \citep{he2022nearly,ye2022corruptionrobust} から不確実性重み付け手法から着想を得て,バッチサンプル上で効率的に計算する新しい不確実性重み付け反復手順を設計し,オフラインrlのための腐敗-ロバストアルゴリズムを提案する。
特に、単一ポリシーカバレッジと$\zeta$の知識の仮定の下で、提案アルゴリズムは、破壊による$\mathcal O(\zeta \cdot (\text{CC}(\lambda,\hat{\mathcal F},\mathcal Z_n^H))^{1/2} (C(\hat{\mathcal F},\mu))^{-1/2} n^{-1})$の加算係数によって悪化する亜最適境界を達成する。
ここで、$\text{CC}(\lambda,\hat{\mathcal F},\mathcal Z_n^H)$は正規化パラメータ$\lambda$、信頼セット$\hat{\mathcal F}$、データセット$\mathcal Z_n^H$、および$C(\hat{\mathcal F},\mu)$は、$\hat{\mathcal F}$と基礎となるデータ分散$\mu$に依存する係数である。
線形 MDP に特化する場合、汚職依存誤差項は $\mathcal O(\zeta d n^{-1})$ に減少し、$d$ は特徴写像の次元であり、これは既存の線型 MDP の下位境界と一致する。
このことは、我々の分析が汚職に依存した用語に関してきついことを示唆している。
関連論文リスト
- Robust Distribution Learning with Local and Global Adversarial Corruptions [17.22168727622332]
誤差を$sqrtvarepsilon k + rho + tildeO(dsqrtkn-1/(k lor2)$で有界な共分散を持つ場合、効率的な有限サンプルアルゴリズムを開発する。
我々の効率的な手順は、理想的だが難解な2-ワッサーシュタイン射影推定器の新たなトレースノルム近似に依存する。
論文 参考訳(メタデータ) (2024-06-10T17:48:36Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - A Model Selection Approach for Corruption Robust Reinforcement Learning [33.39130388569606]
我々は,移行と報酬の両面において,敵対的腐敗を伴う強化学習に取り組むためのモデル選択手法を開発した。
我々のアルゴリズムは、$widetildemathcalO(minfrac1Delta, sqrtT+C)$で、$T$はエピソード数、$C$は腐敗の総量、$Delta$はベストとセカンドベストのポリシーの報酬ギャップである。
論文 参考訳(メタデータ) (2021-10-07T15:59:01Z) - Corruption-Robust Offline Reinforcement Learning [19.300465320692066]
オフライン強化学習における対向的堅牢性について検討する。
最悪な$Omega(デプシロン)最適性ギャップは避けられないことを示す。
本稿では,Last-Square Value Iteration (LSVI)アルゴリズムのロバストな変種を提案する。
論文 参考訳(メタデータ) (2021-06-11T22:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。