Fugu-MT 論文翻訳(概要): Essentially Sharp Estimates on the Entropy Regularization Error in Discrete Discounted Markov Decision Processes

論文の概要: Essentially Sharp Estimates on the Entropy Regularization Error in Discrete Discounted Markov Decision Processes

arxiv url: http://arxiv.org/abs/2406.04163v1
Date: Thu, 6 Jun 2024 15:20:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 14:20:13.553699
Title: Essentially Sharp Estimates on the Entropy Regularization Error in Discrete Discounted Markov Decision Processes
Title（参考訳）: 離散離散マルコフ決定過程におけるエントロピー正規化誤差のシャープ推定
Authors: Johannes Müller, Semih Cayci,
Abstract要約: エントロピー規則化自然ポリシー勾配法では,既存の線形保証の改善の2乗根において,全体の誤差が指数関数的に減少することを示す。
参考スコア（独自算出の注目度）: 4.714840786221651
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the error introduced by entropy regularization of infinite-horizon discrete discounted Markov decision processes. We show that this error decreases exponentially in the inverse regularization strength both in a weighted KL-divergence and in value with a problem-specific exponent. We provide a lower bound matching our upper bound up to a polynomial factor. Our proof relies on the correspondence of the solutions of entropy-regularized Markov decision processes with gradient flows of the unregularized reward with respect to a Riemannian metric common in natural policy gradient methods. Further, this correspondence allows us to identify the limit of the gradient flow as the generalized maximum entropy optimal policy, thereby characterizing the implicit bias of the Kakade gradient flow which corresponds to a time-continuous version of the natural policy gradient method. We use this to show that for entropy-regularized natural policy gradient methods the overall error decays exponentially in the square root of the number of iterations improving existing sublinear guarantees.
Abstract（参考訳）: 無限水平離散化マルコフ決定過程のエントロピー正規化による誤差について検討する。この誤差は、重み付きKL偏差と問題固有指数の値の両方において、逆正則化強度において指数関数的に減少することを示す。多項式係数までの上界に一致する下界を与える。我々の証明は、エントロピー正則化マルコフ決定過程の解と、自然政策勾配法に共通するリーマン計量に対する非正則化報酬の勾配フローとの対応に依存する。さらに、この対応により、勾配フローの限界を一般化された最大エントロピー最適ポリシーとして特定することができ、これにより、自然方針勾配法の時間連続バージョンに対応するカカデ勾配フローの暗黙のバイアスを特徴づけることができる。これを用いて、エントロピー規則化自然ポリシー勾配法では、全体の誤差は既存の線形保証を改善する反復数の平方根で指数関数的に減少することを示す。

関連論文リスト

Non-convex entropic mean-field optimization via Best Response flow [0.0]
固定基準測度に関して、相対エントロピー(KL)によって正規化される空間確率測度における非函数の最小化の問題について議論する。非函数から正規化子を選択する方法を示すので、Best Response は$L1$Wasserstein 距離の縮約となる。
論文参考訳（メタデータ） (2025-05-28T18:22:08Z)
Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias [55.72269695392027]
本稿では,線形系を解くためにエントロピックミラー降下を適用することに焦点を当てる。収束解析の主な課題は、領域の非有界性に起因する。制限的な仮定を課さずにこれを克服するために、Polyak型階段の変種を導入する。
論文参考訳（メタデータ） (2025-05-05T12:33:18Z)
Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では,エントロピー正則化が出口時間制御問題に対する政策手法の収束に及ぼす影響について検討する。本稿では,真の勾配であっても,エントロピー正則化が政策最適化をどのように改善するかを説明する。
論文参考訳（メタデータ） (2024-05-30T17:02:18Z)
A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文参考訳（メタデータ） (2024-05-24T21:09:19Z)
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文参考訳（メタデータ） (2024-03-11T15:25:03Z)
A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces [10.777806006475297]
無限水平エントロピー規則化マルコフ決定過程に対するフィッシャー・ラオ政策勾配流のポーランド状態と行動空間による大域収束について検討する。勾配流の大域的健全性を確立し,その指数収束性を示す。
論文参考訳（メタデータ） (2023-10-04T16:41:36Z)
First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文参考訳（メタデータ） (2023-05-25T11:11:31Z)
On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文参考訳（メタデータ） (2022-10-12T12:49:20Z)
On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文参考訳（メタデータ） (2022-01-19T07:03:37Z)
Convergence of policy gradient for entropy regularized MDPs with neural network approximation in the mean-field regime [0.0]
無限水平連続状態および行動空間,エントロピー規則化マルコフ決定過程(MDPs)に対する政策勾配のグローバル収束性について検討する。結果は非線形フォッカー-プランク-コルモゴロフ方程式の慎重な解析に依存する。
論文参考訳（メタデータ） (2022-01-18T20:17:16Z)
Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文参考訳（メタデータ） (2021-12-29T18:46:52Z)
Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文参考訳（メタデータ） (2021-10-19T17:21:09Z)
Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation [30.02577720946978]
線形関数近似を用いたエントロピー規則化NPGの有限時間収束解析を確立した。エントロピー規則化NPGは関数近似誤差までのエンフィナール収束を示すことを示す。
論文参考訳（メタデータ） (2021-06-08T04:30:39Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)
Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文参考訳（メタデータ） (2020-12-09T20:19:32Z)
Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文参考訳（メタデータ） (2020-05-26T16:26:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。