Fugu-MT 論文翻訳(概要): Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning

論文の概要: Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2107.07659v1
Date: Fri, 16 Jul 2021 01:24:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-19 14:36:51.266529
Title: Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning
Title（参考訳）: 幾何学的値反復:強化学習のための動的エラー認識KL正規化
Authors: Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara
Abstract要約: 動的係数スキームについて検討し,第1次誤差境界を示す。より頑健な学習のために,誤差の大きさに応じて係数を調整するための効果的なスキームを提案する。実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることが実証された。
参考スコア（独自算出の注目度）: 11.82492300303637
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent booming of entropy-regularized literature reveals that Kullback-Leibler (KL) regularization brings advantages to Reinforcement Learning (RL) algorithms by canceling out errors under mild assumptions. However, existing analyses focus on fixed regularization with a constant weighting coefficient and have not considered the case where the coefficient is allowed to change dynamically. In this paper, we study the dynamic coefficient scheme and present the first asymptotic error bound. Based on the dynamic coefficient error bound, we propose an effective scheme to tune the coefficient according to the magnitude of error in favor of more robust learning. On top of this development, we propose a novel algorithm: Geometric Value Iteration (GVI) that features a dynamic error-aware KL coefficient design aiming to mitigate the impact of errors on the performance. Our experiments demonstrate that GVI can effectively exploit the trade-off between learning speed and robustness over uniform averaging of constant KL coefficient. The combination of GVI and deep networks shows stable learning behavior even in the absence of a target network where algorithms with a constant KL coefficient would greatly oscillate or even fail to converge.
Abstract（参考訳）: 最近のentropy-regularized literatureのブームは、kullback-leibler(kl)正規化が、軽度の仮定の下でエラーをキャンセルすることで強化学習(rl)アルゴリズムの利点をもたらすことを示している。しかし、既存の解析では定数重み係数を持つ固定正則化に焦点をあてており、係数が動的に変化することが許されている場合は考慮されていない。本稿では,動的係数スキームを考察し,最初の漸近誤差境界について述べる。動的係数の誤差境界に基づいて,よりロバストな学習を優先して,誤差の大きさに応じて係数をチューニングする効果的な手法を提案する。そこで本研究では, 動的誤差を考慮したKL係数設計を特徴とする幾何学的値反復法(GVI)を提案する。実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることを示した。 GVIとディープネットワークの組み合わせは、一定のKL係数を持つアルゴリズムが大きく振動したり、あるいは収束に失敗するターゲットネットワークが存在しない場合でも、安定した学習挙動を示す。

関連論文リスト

Robust Control with Gradient Uncertainty [2.1756081703276]
本稿では,値関数の勾配の不確かさに明示的に対処する,ロバスト制御理論への新たな拡張を導入する。この研究は、強化学習や計算ファイナンスを含む関数近似が一般的である分野において重要な意味を持つ。
論文参考訳（メタデータ） (2025-07-20T18:37:30Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
A Robust Model-Based Approach for Continuous-Time Policy Evaluation with Unknown Lévy Process Dynamics [1.0923877073891446]
本稿では,継続的政策評価のためのモデルベースフレームワークを開発する。ブラウンとレヴィのノイズを組み込んで、稀な出来事や極端な出来事の影響を受けやすい力学をモデル化する。
論文参考訳（メタデータ） (2025-04-02T08:37:14Z)
Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。 DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文参考訳（メタデータ） (2025-03-11T04:43:33Z)
An Accelerated Alternating Partial Bregman Algorithm for ReLU-based Matrix Decomposition [0.0]
本稿では,非負行列上に補正されたスパース低ランク特性について検討する。本稿では,クラスタリングと圧縮タスクに有用な構造を取り入れた新しい正規化項を提案する。我々は、任意の$Lge 1$に対して常に持つ$L$-smoothプロパティを維持しながら、対応する閉形式解を導出する。
論文参考訳（メタデータ） (2025-03-04T08:20:34Z)
Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文参考訳（メタデータ） (2025-02-11T11:11:05Z)
Muti-Fidelity Prediction and Uncertainty Quantification with Laplace Neural Operators for Parametric Partial Differential Equations [6.03891813540831]
Laplace Neural Operators (LNOs) は、科学機械学習において有望なアプローチとして登場した。低忠実度ベースモデルと並列線形/非線形HF補正と動的相互重み付けを組み合わせた多忠実Laplace Neural Operator (MF-LNOs)を提案する。これにより、LFデータセットとHFデータセットの相関を利用して、興味のある量の正確な推測を行うことができる。
論文参考訳（メタデータ） (2025-02-01T20:38:50Z)
Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文参考訳（メタデータ） (2024-11-04T11:09:58Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-03-19T22:18:19Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Mitigating Covariate Shift in Misspecified Regression with Applications to Reinforcement Learning [39.02112341007981]
本研究では,分布変化がモデルミス種別の有無に及ぼす影響について検討した。経験的リスク最小化(または標準最小二乗回帰)は、望ましくない不特定性の増幅をもたらす可能性があることを示す。我々は、この好ましくない振る舞いを避ける新しいアルゴリズムを開発し、したがって、最適な統計率を得ながら、誤特定の増幅を行わない。
論文参考訳（メタデータ） (2024-01-22T18:59:12Z)
Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文参考訳（メタデータ） (2023-01-03T04:09:38Z)
Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文参考訳（メタデータ） (2021-06-03T18:49:05Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文参考訳（メタデータ） (2020-04-15T09:52:37Z)
Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文参考訳（メタデータ） (2020-03-31T10:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。