論文の概要: Quasi-Newton Compatible Actor-Critic for Deterministic Policies
- arxiv url: http://arxiv.org/abs/2511.09509v1
- Date: Thu, 13 Nov 2025 01:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.60279
- Title: Quasi-Newton Compatible Actor-Critic for Deterministic Policies
- Title(参考訳): 定性政策のための準ニュートン対応アクター臨界
- Authors: Arash Bahari Kordabad, Dean Brandner, Sebastien Gros, Sergio Lucia, Sadegh Soudjani,
- Abstract要約: 強化学習における2次決定論的アクター批判的枠組みを提案する。
我々は、真の政策勾配とパフォーマンス・ヘッセンの近似を同時に保存する二次的批判を導入する。
- 参考スコア(独自算出の注目度): 2.745166507489733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a second-order deterministic actor-critic framework in reinforcement learning that extends the classical deterministic policy gradient method to exploit curvature information of the performance function. Building on the concept of compatible function approximation for the critic, we introduce a quadratic critic that simultaneously preserves the true policy gradient and an approximation of the performance Hessian. A least-squares temporal difference learning scheme is then developed to estimate the quadratic critic parameters efficiently. This construction enables a quasi-Newton actor update using information learned by the critic, yielding faster convergence compared to first-order methods. The proposed approach is general and applicable to any differentiable policy class. Numerical examples demonstrate that the method achieves improved convergence and performance over standard deterministic actor-critic baselines.
- Abstract(参考訳): 本稿では,古典的決定論的政策勾配法を拡張して性能関数の曲率情報を利用する強化学習における2次決定論的アクター批判フレームワークを提案する。
批判者に対する適合関数近似の概念に基づいて、真の政策勾配とパフォーマンス・ヘッセンの近似を同時に保存する二次的批判を導入する。
次に,2次的批判パラメータを効率的に推定するために,最小2乗時間差分学習法を開発した。
この構成により、批評家が学習した情報を用いて準ニュートンアクターの更新が可能となり、一階法に比べてより高速な収束が得られる。
提案されたアプローチは一般的なものであり、任意の微分可能なポリシークラスに適用できる。
数値的な例は、標準的な決定論的アクター批判ベースラインよりも優れた収束と性能を実現することを証明している。
関連論文リスト
- Functional Critic Modeling for Provably Convergent Off-Policy Actor-Critic [29.711769434073755]
本稿では,機能的批判モデルという新しい概念を導入し,新たなACフレームワークを提案する。
線形関数設定の理論的解析を行い、我々のフレームワークの証明可能な収束を確立する。
論文 参考訳(メタデータ) (2025-09-26T21:55:26Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER [6.9478331974594045]
我々は、よく知られたPPOと最近導入されたRUDDERの収束性を示す。
本研究は, エピソード標本を用いたアクター批判的手法に有効であり, 学習中により欲求的になる方針を持つ。
論文 参考訳(メタデータ) (2020-12-02T18:47:06Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。