論文の概要: Geometric Value Iteration: Dynamic Error-Aware KL Regularization for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.07659v1
- Date: Fri, 16 Jul 2021 01:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:36:51.266529
- Title: Geometric Value Iteration: Dynamic Error-Aware KL Regularization for
Reinforcement Learning
- Title(参考訳): 幾何学的値反復:強化学習のための動的エラー認識KL正規化
- Authors: Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara
- Abstract要約: 動的係数スキームについて検討し,第1次誤差境界を示す。
より頑健な学習のために,誤差の大きさに応じて係数を調整するための効果的なスキームを提案する。
実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることが実証された。
- 参考スコア(独自算出の注目度): 11.82492300303637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent booming of entropy-regularized literature reveals that
Kullback-Leibler (KL) regularization brings advantages to Reinforcement
Learning (RL) algorithms by canceling out errors under mild assumptions.
However, existing analyses focus on fixed regularization with a constant
weighting coefficient and have not considered the case where the coefficient is
allowed to change dynamically. In this paper, we study the dynamic coefficient
scheme and present the first asymptotic error bound. Based on the dynamic
coefficient error bound, we propose an effective scheme to tune the coefficient
according to the magnitude of error in favor of more robust learning. On top of
this development, we propose a novel algorithm: Geometric Value Iteration (GVI)
that features a dynamic error-aware KL coefficient design aiming to mitigate
the impact of errors on the performance. Our experiments demonstrate that GVI
can effectively exploit the trade-off between learning speed and robustness
over uniform averaging of constant KL coefficient. The combination of GVI and
deep networks shows stable learning behavior even in the absence of a target
network where algorithms with a constant KL coefficient would greatly oscillate
or even fail to converge.
- Abstract(参考訳): 最近のentropy-regularized literatureのブームは、kullback-leibler(kl)正規化が、軽度の仮定の下でエラーをキャンセルすることで強化学習(rl)アルゴリズムの利点をもたらすことを示している。
しかし、既存の解析では定数重み係数を持つ固定正則化に焦点をあてており、係数が動的に変化することが許されている場合は考慮されていない。
本稿では,動的係数スキームを考察し,最初の漸近誤差境界について述べる。
動的係数の誤差境界に基づいて,よりロバストな学習を優先して,誤差の大きさに応じて係数をチューニングする効果的な手法を提案する。
そこで本研究では, 動的誤差を考慮したKL係数設計を特徴とする幾何学的値反復法(GVI)を提案する。
実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることを示した。
GVIとディープネットワークの組み合わせは、一定のKL係数を持つアルゴリズムが大きく振動したり、あるいは収束に失敗するターゲットネットワークが存在しない場合でも、安定した学習挙動を示す。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Mitigating Covariate Shift in Misspecified Regression with Applications
to Reinforcement Learning [39.02112341007981]
本研究では,分布変化がモデルミス種別の有無に及ぼす影響について検討した。
経験的リスク最小化(または標準最小二乗回帰)は、望ましくない不特定性の増幅をもたらす可能性があることを示す。
我々は、この好ましくない振る舞いを避ける新しいアルゴリズムを開発し、したがって、最適な統計率を得ながら、誤特定の増幅を行わない。
論文 参考訳(メタデータ) (2024-01-22T18:59:12Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback
meets Reinforcement Learning [32.937264507807214]
一般的な強化学習アルゴリズムは、同様の摂動に対して堅牢であることを示す。
我々の研究は、一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを初めて考慮したものである。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - A Random Matrix Theory Approach to Damping in Deep Learning [0.7614628596146599]
深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。
線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
論文 参考訳(メタデータ) (2020-11-15T18:19:42Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。