論文の概要: Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability
- arxiv url: http://arxiv.org/abs/2109.11792v1
- Date: Fri, 24 Sep 2021 07:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:28:00.268549
- Title: Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability
- Title(参考訳): アルゴリズム安定性によるベイズ強化学習における正規化保証
- Authors: Aviv Tamar, Daniel Soudry, Ev Zisselman
- Abstract要約: ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
- 参考スコア(独自算出の注目度): 48.62272919754204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the Bayesian reinforcement learning (RL) setting, a prior distribution
over the unknown problem parameters -- the rewards and transitions -- is
assumed, and a policy that optimizes the (posterior) expected return is sought.
A common approximation, which has been recently popularized as meta-RL, is to
train the agent on a sample of $N$ problem instances from the prior, with the
hope that for large enough $N$, good generalization behavior to an unseen test
instance will be obtained. In this work, we study generalization in Bayesian RL
under the probably approximately correct (PAC) framework, using the method of
algorithmic stability. Our main contribution is showing that by adding
regularization, the optimal policy becomes stable in an appropriate sense. Most
stability results in the literature build on strong convexity of the
regularized loss -- an approach that is not suitable for RL as Markov decision
processes (MDPs) are not convex. Instead, building on recent results of fast
convergence rates for mirror descent in regularized MDPs, we show that
regularized MDPs satisfy a certain quadratic growth criterion, which is
sufficient to establish stability. This result, which may be of independent
interest, allows us to study the effect of regularization on generalization in
the Bayesian RL setting.
- Abstract(参考訳): ベイズ強化学習(RL)では、未知の問題パラメーター(報酬と遷移)に関する事前分布が仮定され、(後)期待されるリターンを最適化するポリシーが求められている。
メタRLとして最近一般化された一般的な近似は、エージェントを以前の$N$問題インスタンスのサンプルでトレーニングすることであり、十分に大きな$N$の場合、未確認のテストインスタンスに対する良い一般化動作が得られることを期待している。
本研究では,アルゴリズム安定性の手法を用いて,ベイズRLの近似近似(PAC)フレームワークによる一般化について検討する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
ほとんどの安定性は、正則化損失の強い凸性の上に構築され、マルコフ決定過程(MDP)が凸でないため、RLには適さないアプローチである。
その代わり、正則化MDPにおける鏡面降下の高速収束率の最近の結果に基づいて、正則化MDPが一定の二次成長基準を満たすことを示し、安定性を確立するのに十分である。
この結果は独立興味を持つかもしれないので、ベイズ rl の設定における一般化に対する正規化の効果を研究できる。
関連論文リスト
- Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Boosting the Confidence of Generalization for $L_2$-Stable Randomized
Learning Algorithms [41.082982732100696]
適切に設計されたサブバッグプロセスは、データとアルゴリズムの両方にほぼ28の指数関数的一般化バウンダリをもたらすことを示す。
さらに、自然減衰学習率を持つ凸問題や非重み付き問題に対する高確率一般化境界を改善するために、総合的な結果を導出する。
論文 参考訳(メタデータ) (2022-06-08T12:14:01Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。