論文の概要: Leverage the Average: an Analysis of KL Regularization in RL
- arxiv url: http://arxiv.org/abs/2003.14089v5
- Date: Wed, 6 Jan 2021 14:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:11:06.882759
- Title: Leverage the Average: an Analysis of KL Regularization in RL
- Title(参考訳): 平均値のレバレッジ:RLにおけるKL正規化の解析
- Authors: Nino Vieillard, Tadashi Kozuno, Bruno Scherrer, Olivier Pietquin,
R\'emi Munos, Matthieu Geist
- Abstract要約: Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
- 参考スコア(独自算出の注目度): 44.01222241795292
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Reinforcement Learning (RL) algorithms making use of Kullback-Leibler
(KL) regularization as a core component have shown outstanding performance.
Yet, only little is understood theoretically about why KL regularization helps,
so far. We study KL regularization within an approximate value iteration scheme
and show that it implicitly averages q-values. Leveraging this insight, we
provide a very strong performance bound, the very first to combine two
desirable aspects: a linear dependency to the horizon (instead of quadratic)
and an error propagation term involving an averaging effect of the estimation
errors (instead of an accumulation effect). We also study the more general case
of an additional entropy regularizer. The resulting abstract scheme encompasses
many existing RL algorithms. Some of our assumptions do not hold with neural
networks, so we complement this theoretical analysis with an extensive
empirical study.
- Abstract(参考訳): Kullback-Leibler(KL)正則化をコアコンポーネントとして用いた最近の強化学習(RL)アルゴリズムは優れた性能を示している。
しかし、KL正則化がなぜ役立つのかは理論上はほとんど分かっていない。
近似値反復スキームにおけるkl正規化について検討し,q値を暗黙的に平均化することを示す。
この知見を生かして、我々は非常に強いパフォーマンスバウンダリを提供し、まず第一に、水平線への線形依存(二次的ではなく)と、(累積効果の代わりに)推定誤差の平均化効果を含むエラー伝播項という、2つの望ましい側面を組み合わせる。
また,追加エントロピー正則化器のより一般的な場合についても検討した。
その結果、抽象的なスキームは多くの既存のRLアルゴリズムを含んでいる。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
関連論文リスト
- Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文 参考訳(メタデータ) (2024-11-07T11:22:46Z) - A Statistical Theory of Regularization-Based Continual Learning [10.899175512941053]
線形回帰タスクの順序に基づく正規化に基づく連続学習の統計的解析を行う。
まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。
理論解析の副産物は、早期停止と一般化された$ell$-regularizationの等価性である。
論文 参考訳(メタデータ) (2024-06-10T12:25:13Z) - Fine-grained analysis of non-parametric estimation for pairwise learning [9.676007573960383]
ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。
我々の結果は、ランキング、AUC、ペアワイズ回帰、メートル法、類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。
論文 参考訳(メタデータ) (2023-05-31T08:13:14Z) - Sparsest Univariate Learning Models Under Lipschitz Constraint [31.28451181040038]
一次元回帰問題に対する連続領域定式化を提案する。
リプシッツ定数をユーザ定義上界を用いて明示的に制御する。
いずれの問題も、連続的かつ断片的線形なグローバル最小化を許容していることが示される。
論文 参考訳(メタデータ) (2021-12-27T07:03:43Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。