論文の概要: Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.06188v1
- Date: Tue, 9 Apr 2024 10:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:09:49.596916
- Title: Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning
- Title(参考訳): 多様なランダム化値関数--オフライン強化学習における悲観的アプローチ
- Authors: Xudong Yu, Chenjia Bai, Hongyi Guo, Changhong Wang, Zhen Wang,
- Abstract要約: Q$-値の後方分布を推定するために,多種多様なランダム化値関数を用いた新しい戦略を導入する。
堅牢な不確実性定量化と、$Q$-値の低い信頼境界(LCB)を推定する。
また、ランダム化値関数内の多様性を強調し、ダイバーシティ正規化手法を導入し、ネットワークの必要数を減らすことで効率を向上させる。
- 参考スコア(独自算出の注目度): 11.304227281260896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) faces distributional shift and unreliable value estimation, especially for out-of-distribution (OOD) actions. To address this, existing uncertainty-based methods penalize the value function with uncertainty quantification and demand numerous ensemble networks, posing computational challenges and suboptimal outcomes. In this paper, we introduce a novel strategy employing diverse randomized value functions to estimate the posterior distribution of $Q$-values. It provides robust uncertainty quantification and estimates lower confidence bounds (LCB) of $Q$-values. By applying moderate value penalties for OOD actions, our method fosters a provably pessimistic approach. We also emphasize on diversity within randomized value functions and enhance efficiency by introducing a diversity regularization method, reducing the requisite number of networks. These modules lead to reliable value estimation and efficient policy learning from offline data. Theoretical analysis shows that our method recovers the provably efficient LCB-penalty under linear MDP assumptions. Extensive empirical results also demonstrate that our proposed method significantly outperforms baseline methods in terms of performance and parametric efficiency.
- Abstract(参考訳): オフライン強化学習(RL)は、特にアウト・オブ・ディストリビューション(OOD)アクションにおいて、分散シフトと信頼できない値推定に直面する。
これを解決するために、既存の不確実性に基づく手法は、不確実な定量化で値関数をペナルティ化し、多数のアンサンブルネットワークを必要とし、計算上の課題と準最適結果に対処する。
本稿では,多種多様なランダム化値関数を用いて,$Q$-値の後方分布を推定する手法を提案する。
堅牢な不確実性定量化と、$Q$-値の低い信頼境界(LCB)を推定する。
OOD行動に適度な値ペナルティを適用することで,本手法は悲観的なアプローチを育むことができる。
また、ランダム化値関数内の多様性を強調し、ダイバーシティ正規化手法を導入し、ネットワークの必要数を減らすことで効率を向上させる。
これらのモジュールは、信頼性の高い値推定と、オフラインデータからの効率的なポリシー学習につながる。
理論的解析により, 線形MDP仮定の下で, 有効効率のLCB-ペナルティを回復することが示唆された。
また,提案手法は,性能およびパラメトリック効率の点で,ベースライン法よりも有意に優れていた。
関連論文リスト
- Uncertainty Quantification with the Empirical Neural Tangent Kernel [12.388707890314539]
トレーニング終了時のオーバーパラメータ化ネットワークに対するポストホックサンプリングに基づくUQ手法を提案する。
実験的なニューラルタンジェントカーネルを用いて,ガウス過程の後部を効果的に近似することを示した。
提案手法は, 計算効率の競合するアプローチ(多くの場合, 複数の要因によるコスト削減)に勝るだけでなく, 回帰処理と分類処理の両方において, 様々なUQ指標の最先端性能も維持できることを示す。
論文 参考訳(メタデータ) (2025-02-05T04:01:34Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。
本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。
我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文 参考訳(メタデータ) (2021-02-06T16:45:33Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。