Fugu-MT 論文翻訳(概要): Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning

論文の概要: Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2404.06188v1
Date: Tue, 9 Apr 2024 10:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 15:09:49.596916
Title: Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning
Title（参考訳）: 多様なランダム化値関数--オフライン強化学習における悲観的アプローチ
Authors: Xudong Yu, Chenjia Bai, Hongyi Guo, Changhong Wang, Zhen Wang,
Abstract要約: Q$-値の後方分布を推定するために,多種多様なランダム化値関数を用いた新しい戦略を導入する。堅牢な不確実性定量化と、$Q$-値の低い信頼境界(LCB)を推定する。また、ランダム化値関数内の多様性を強調し、ダイバーシティ正規化手法を導入し、ネットワークの必要数を減らすことで効率を向上させる。
参考スコア（独自算出の注目度）: 11.304227281260896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline Reinforcement Learning (RL) faces distributional shift and unreliable value estimation, especially for out-of-distribution (OOD) actions. To address this, existing uncertainty-based methods penalize the value function with uncertainty quantification and demand numerous ensemble networks, posing computational challenges and suboptimal outcomes. In this paper, we introduce a novel strategy employing diverse randomized value functions to estimate the posterior distribution of $Q$-values. It provides robust uncertainty quantification and estimates lower confidence bounds (LCB) of $Q$-values. By applying moderate value penalties for OOD actions, our method fosters a provably pessimistic approach. We also emphasize on diversity within randomized value functions and enhance efficiency by introducing a diversity regularization method, reducing the requisite number of networks. These modules lead to reliable value estimation and efficient policy learning from offline data. Theoretical analysis shows that our method recovers the provably efficient LCB-penalty under linear MDP assumptions. Extensive empirical results also demonstrate that our proposed method significantly outperforms baseline methods in terms of performance and parametric efficiency.
Abstract（参考訳）: オフライン強化学習(RL)は、特にアウト・オブ・ディストリビューション(OOD)アクションにおいて、分散シフトと信頼できない値推定に直面する。これを解決するために、既存の不確実性に基づく手法は、不確実な定量化で値関数をペナルティ化し、多数のアンサンブルネットワークを必要とし、計算上の課題と準最適結果に対処する。本稿では,多種多様なランダム化値関数を用いて,$Q$-値の後方分布を推定する手法を提案する。堅牢な不確実性定量化と、$Q$-値の低い信頼境界(LCB)を推定する。 OOD行動に適度な値ペナルティを適用することで,本手法は悲観的なアプローチを育むことができる。また、ランダム化値関数内の多様性を強調し、ダイバーシティ正規化手法を導入し、ネットワークの必要数を減らすことで効率を向上させる。これらのモジュールは、信頼性の高い値推定と、オフラインデータからの効率的なポリシー学習につながる。理論的解析により, 線形MDP仮定の下で, 有効効率のLCB-ペナルティを回復することが示唆された。また,提案手法は,性能およびパラメトリック効率の点で,ベースライン法よりも有意に優れていた。

関連論文リスト

TULiP: Test-time Uncertainty Estimation via Linearization and Weight Perturbation [11.334867025651233]
OOD検出のための理論駆動型不確実性推定器TULiPを提案する。本手法では,収束前にネットワークに適用される仮説的摂動を考察する。提案手法は,特に近分布試料について,最先端の性能を示す。
論文参考訳（メタデータ） (2025-05-22T17:16:41Z)
Uncertainty Quantification with the Empirical Neural Tangent Kernel [12.388707890314539]
トレーニング終了時のオーバーパラメータ化ネットワークに対するポストホックサンプリングに基づくUQ手法を提案する。実験的なニューラルタンジェントカーネルを用いて,ガウス過程の後部を効果的に近似することを示した。提案手法は, 計算効率の競合するアプローチ(多くの場合, 複数の要因によるコスト削減)に勝るだけでなく, 回帰処理と分類処理の両方において, 様々なUQ指標の最先端性能も維持できることを示す。
論文参考訳（メタデータ） (2025-02-05T04:01:34Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning [1.7898305876314982]
提案アルゴリズムは,共形推論の原理に基づいて,深い明解学習と量子キャリブレーションを組み合わせる。ミニチュア化されたアタリゲームスイート(MinAtar)でテストされる。
論文参考訳（メタデータ） (2024-02-11T05:17:56Z)
Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。 RLで発生するノイズ管理における不確実性の原因を系統的に分析する。本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文参考訳（メタデータ） (2022-01-05T15:46:06Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
Bootstrapping Statistical Inference for Off-Policy Evaluation [43.79456564713911]
オフ政治評価(OPE)におけるブートストラップの利用について検討する。本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が政治外の統計的推測に有効で一貫性があることを示す。我々は,古典的RL環境におけるブートラッピング手法の評価を行い,信頼区間推定,オフポリチック評価器のばらつきの推定,複数オフポリチック評価器の相関性の推定を行った。
論文参考訳（メタデータ） (2021-02-06T16:45:33Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文参考訳（メタデータ） (2020-09-29T04:58:17Z)
Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文参考訳（メタデータ） (2020-03-05T19:56:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。