論文の概要: Geometric Value Iteration: Dynamic Error-Aware KL Regularization for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.07659v1
- Date: Fri, 16 Jul 2021 01:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:36:51.266529
- Title: Geometric Value Iteration: Dynamic Error-Aware KL Regularization for
Reinforcement Learning
- Title(参考訳): 幾何学的値反復:強化学習のための動的エラー認識KL正規化
- Authors: Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara
- Abstract要約: 動的係数スキームについて検討し,第1次誤差境界を示す。
より頑健な学習のために,誤差の大きさに応じて係数を調整するための効果的なスキームを提案する。
実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることが実証された。
- 参考スコア(独自算出の注目度): 11.82492300303637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent booming of entropy-regularized literature reveals that
Kullback-Leibler (KL) regularization brings advantages to Reinforcement
Learning (RL) algorithms by canceling out errors under mild assumptions.
However, existing analyses focus on fixed regularization with a constant
weighting coefficient and have not considered the case where the coefficient is
allowed to change dynamically. In this paper, we study the dynamic coefficient
scheme and present the first asymptotic error bound. Based on the dynamic
coefficient error bound, we propose an effective scheme to tune the coefficient
according to the magnitude of error in favor of more robust learning. On top of
this development, we propose a novel algorithm: Geometric Value Iteration (GVI)
that features a dynamic error-aware KL coefficient design aiming to mitigate
the impact of errors on the performance. Our experiments demonstrate that GVI
can effectively exploit the trade-off between learning speed and robustness
over uniform averaging of constant KL coefficient. The combination of GVI and
deep networks shows stable learning behavior even in the absence of a target
network where algorithms with a constant KL coefficient would greatly oscillate
or even fail to converge.
- Abstract(参考訳): 最近のentropy-regularized literatureのブームは、kullback-leibler(kl)正規化が、軽度の仮定の下でエラーをキャンセルすることで強化学習(rl)アルゴリズムの利点をもたらすことを示している。
しかし、既存の解析では定数重み係数を持つ固定正則化に焦点をあてており、係数が動的に変化することが許されている場合は考慮されていない。
本稿では,動的係数スキームを考察し,最初の漸近誤差境界について述べる。
動的係数の誤差境界に基づいて,よりロバストな学習を優先して,誤差の大きさに応じて係数をチューニングする効果的な手法を提案する。
そこで本研究では, 動的誤差を考慮したKL係数設計を特徴とする幾何学的値反復法(GVI)を提案する。
実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることを示した。
GVIとディープネットワークの組み合わせは、一定のKL係数を持つアルゴリズムが大きく振動したり、あるいは収束に失敗するターゲットネットワークが存在しない場合でも、安定した学習挙動を示す。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Mitigating Covariate Shift in Misspecified Regression with Applications
to Reinforcement Learning [39.02112341007981]
本研究では,分布変化がモデルミス種別の有無に及ぼす影響について検討した。
経験的リスク最小化(または標準最小二乗回帰)は、望ましくない不特定性の増幅をもたらす可能性があることを示す。
我々は、この好ましくない振る舞いを避ける新しいアルゴリズムを開発し、したがって、最適な統計率を得ながら、誤特定の増幅を行わない。
論文 参考訳(メタデータ) (2024-01-22T18:59:12Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。