Fugu-MT 論文翻訳(概要): Beyond variance reduction: Understanding the true impact of baselines on policy optimization

論文の概要: Beyond variance reduction: Understanding the true impact of baselines on policy optimization

arxiv url: http://arxiv.org/abs/2008.13773v3
Date: Fri, 19 Feb 2021 18:10:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-23 06:42:38.020988
Title: Beyond variance reduction: Understanding the true impact of baselines on policy optimization
Title（参考訳）: 分散削減を超えて:政策最適化におけるベースラインの真の影響を理解する
Authors: Wesley Chung, Valentin Thomas, Marlos C. Machado, Nicolas Le Roux
Abstract要約: 学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
参考スコア（独自算出の注目度）: 24.09670734037029
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bandit and reinforcement learning (RL) problems can often be framed as optimization problems where the goal is to maximize average performance while having access only to stochastic estimates of the true gradient. Traditionally, stochastic optimization theory predicts that learning dynamics are governed by the curvature of the loss function and the noise of the gradient estimates. In this paper we demonstrate that this is not the case for bandit and RL problems. To allow our analysis to be interpreted in light of multi-step MDPs, we focus on techniques derived from stochastic optimization principles (e.g., natural policy gradient and EXP3) and we show that some standard assumptions from optimization theory are violated in these problems. We present theoretical results showing that, at least for bandit problems, curvature and noise are not sufficient to explain the learning dynamics and that seemingly innocuous choices like the baseline can determine whether an algorithm converges. These theoretical findings match our empirical evaluation, which we extend to multi-state MDPs.
Abstract（参考訳）: バンドと強化学習(RL)の問題は、真の勾配の確率的推定にのみアクセスしながら平均性能を最大化する最適化問題として表されることが多い。伝統的に、確率最適化理論は学習のダイナミクスが損失関数の曲率と勾配推定のノイズによって支配されていると予測している。本稿では,これはbanditやrlの問題には当てはまらないことを示す。多段階mdpを用いて解析を解釈できるように,確率的最適化原理(自然政策勾配やexp3)に基づく手法に着目し,最適化理論からの標準的な仮定のいくつかがこれらの問題に違反していることを示す。本稿では,少なくとも帯域幅問題では,学習力学を説明するには曲率や雑音が十分ではないこと,アルゴリズムが収束するかどうかをベースラインのような一見無害な選択が決定できることを示す。これらの理論的結果は,多状態MDPに拡張した経験的評価と一致する。

関連論文リスト

OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning [12.77713716713937]
一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
論文参考訳（メタデータ） (2025-11-28T16:09:28Z)
Matrix Sensing with Kernel Optimal Loss: Robustness and Optimization Landscape [10.674539579679871]
従来の回帰タスクでは、平均二乗誤差(MSE)損失は一般的な選択であるが、ガウス的でないノイズや重み付きノイズは信頼できない。我々は,残差密度のカーネルベース推定に基づくロバストな損失定式化を採用し,その推定対数類似度を最大化する。
論文参考訳（メタデータ） (2025-11-03T23:22:37Z)
Optimistic Algorithms for Adaptive Estimation of the Average Treatment Effect [36.25361703897723]
マルティンゲール理論の最近の進歩は、下流推論の力を高めるための適応的手法の道を開いた。最適な因果推論手法を利用する適応的サンプリング手順について検討する。本研究は,理論・実践における適応因果推論手法の進歩の歩みを示すものである。
論文参考訳（メタデータ） (2025-02-07T05:39:32Z)
Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文参考訳（メタデータ） (2023-10-30T18:43:21Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文参考訳（メタデータ） (2022-11-14T21:54:31Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
AdaTerm: Adaptive T-Distribution Estimated Robust Moments for Noise-Robust Stochastic Gradient Optimization [14.531550983885772]
本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2022-01-18T03:13:19Z)
Optimizing Information-theoretical Generalization Bounds via Anisotropic Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文参考訳（メタデータ） (2021-10-26T15:02:27Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
A theoretical and empirical study of new adaptive algorithms with additional momentum steps and shifted updates for stochastic non-convex optimization [0.0]
適応最適化アルゴリズムは学習分野の鍵となる柱を表現していると考えられる。本稿では,異なる非滑らかな目的問題に対する適応運動量法を提案する。
論文参考訳（メタデータ） (2021-10-16T09:47:57Z)
Towards Optimal Problem Dependent Generalization Error Bounds in Statistical Learning Theory [11.840747467007963]
我々は,「ベスト勾配仮説」で評価された分散,有効損失誤差,ノルムとほぼ最適にスケールする問題依存率について検討する。一様局所収束(uniform localized convergence)と呼ばれる原理的枠組みを導入する。我々は,既存の一様収束と局所化解析のアプローチの基本的制約を,我々のフレームワークが解決していることを示す。
論文参考訳（メタデータ） (2020-11-12T04:07:29Z)
Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文参考訳（メタデータ） (2020-02-08T02:27:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。