論文の概要: Refined Analysis of Entropy-Regularized Actor-Critic
- arxiv url: http://arxiv.org/abs/2605.24357v1
- Date: Sat, 23 May 2026 02:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.951161
- Title: Refined Analysis of Entropy-Regularized Actor-Critic
- Title(参考訳): エントロピー規則化アクター・クライトの精製解析
- Authors: Safwan Labbi, Paul Mangold, Daniil Tiapkin, Eric Moulines,
- Abstract要約: エントロピー・レギュラー化・有限割引環境における批評家の役割について検討する。
これはまず批評家に学び、各アクターのアップデート後に最新の状態に保つことを示唆している。
- 参考スコア(独自算出の注目度): 26.419221337454008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the role of the critic in actor--critic for entropy-regularized, finite, discounted environments. We establish that, when the critic is exact, using the latter as a baseline is a variance-reduction method in a strong sense. In this case, actor--critic with stochastic gradients matches the sample complexity of deterministic policy gradient, reaching an $ε$-optimal regularized value with $\tilde{O}(\log(1/ε))$ samples. In practice, the critic is learned alongside the actor: the variance of the actor update is then influenced by the critic's variance and bias. Specifically, when the critic has a sufficiently small error, the variance reduction and rapid convergence are preserved. This suggests to learn the critic first, keeping it up to date after each actor update, underscoring the crucial role of accurate critic estimation in actor--critic methods.
- Abstract(参考訳): 本稿では,エントロピーに規則化された,有限な,割引された環境に対する批評家の役割について検討する。
批判が正しければ、後者をベースラインとして使うことは、強い意味で分散還元法であることを示す。
この場合、確率勾配を持つアクター批判は決定論的ポリシー勾配のサンプル複雑さと一致し、$ε$-最適正規化値と$\tilde{O}(\log(1/ε))$サンプルに達する。
実際には、批評家は俳優と一緒に学び、アクター更新のばらつきは批評家のばらつきと偏見に影響される。
特に、批評家の誤差が十分に小さい場合には、ばらつきの低減と急激な収束が保存される。
これはまず批評家に学び、各アクターの更新後に最新に保ち、アクターの批判的手法における正確な批評家推定の重要な役割を強調することを示唆している。
関連論文リスト
- EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - Debiasing Meta-Gradient Reinforcement Learning by Learning the Outer
Value Function [69.59204851882643]
メタグラディエントRLアプローチのメタグラディエントにおけるバイアスを同定する。
このバイアスは、メタ学習された割引係数を用いてトレーニングされた批評家を用いて、外的目的の利点を推定することに由来する。
メタ学習型割引因子は、通常、外側の目的で使用されるものよりも低いため、結果として生じるバイアスは、メタ学習型が筋電図のポリシーを好む原因となる。
論文 参考訳(メタデータ) (2022-11-19T00:59:20Z) - Finite-time analysis of single-timescale actor-critic [8.994243376183658]
アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。
有限時間収束は、最も実践的な単一時間スケールの形ではまだ理解されていない。
より実用的なオンラインシングルタイム・アクター・クリティカル・アルゴリズムを連続状態空間上で検討する。
論文 参考訳(メタデータ) (2022-10-18T15:03:56Z) - A Small Gain Analysis of Single Timescale Actor Critic [16.092248433189816]
本研究では,比例的なステップサイズを用いたアクター・批評家版と,アクター・ステップ毎の静止分布からの1つのサンプルによる1つの批評家更新について検討する。
本研究では,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さがアクター批判手法の精度を向上させることが証明された。
論文 参考訳(メタデータ) (2022-03-04T22:20:34Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics [65.51757376525798]
過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
論文 参考訳(メタデータ) (2020-05-08T19:52:26Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。