論文の概要: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
- arxiv url: http://arxiv.org/abs/2510.12334v1
- Date: Tue, 14 Oct 2025 09:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.271418
- Title: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
- Title(参考訳): 後退を伴うアクター・クライトの有限時間収束解析
- Authors: Rui Hu, Yu Chen, Longbo Huang,
- Abstract要約: 本稿では,進化する報酬関数の存在下で,単一時間スケールアクター・クリティカル・アルゴリズムの有限時間収束解析を行う。
第二の貢献として、マルコフサンプリングによる分布ミスマッチの新たな解析を導入し、静的回帰の場合、$log2T$の係数で最もよく知られたレートを改善する。
- 参考スコア(独自算出の注目度): 33.907497292192225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
- Abstract(参考訳): 多くのポピュラーな実践的強化学習(RL)アルゴリズムは、報酬形成、エントロピー正規化、カリキュラム学習など、進化する報酬関数を用いる。
本稿では,マルコフ的サンプリングの下での報酬関数の進化が存在する場合において,単一時間スケールのアクター・クリティック・アルゴリズムの有限時間収束解析を行う。
政策最適化と価値推定の両方に影響を及ぼすため、各段階において報酬パラメータが変化する可能性のある設定を検討する。
標準的な仮定では、アクターと批評家の両方の誤りに対して非漸近的境界を導出する。
以上の結果から,$O(1/\sqrt{T})$収束率は静的報酬の既知値と一致し,報酬パラメータが十分に緩やかに進化することを示す。
このレートは、報酬がグラデーションベースでグラデーションベースの規則によって更新され、アクターと批評家と同じ時間スケールで保持され、多くのRLテクニックの理論的基礎を提供する。
第二の寄与として、マルコフサンプリングによる分布ミスマッチの新たな解析を導入し、静的回帰の場合、$\log^2T$の係数で最もよく知られたレートを改善する。
関連論文リスト
- Rethinking KL Regularization in RLHF: From Value Estimation to Gradient Optimization [6.136585583991053]
Reinforcement Learning from Human Feedback (RLHF) は、Kulback-Leibler (KL) の分散損失を利用してトレーニングを安定させ、オーバーフィッティングを防ぐ。
GRPOのような手法では、数値値の推定からその実装を導出することができる。
論文 参考訳(メタデータ) (2025-10-02T01:00:02Z) - Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。
本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。
確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文 参考訳(メタデータ) (2025-06-06T15:42:15Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。