論文の概要: Policy Newton Algorithm in Reproducing Kernel Hilbert Space
- arxiv url: http://arxiv.org/abs/2506.01597v1
- Date: Mon, 02 Jun 2025 12:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.377035
- Title: Policy Newton Algorithm in Reproducing Kernel Hilbert Space
- Title(参考訳): カーネルヒルベルト空間再生におけるポリシニュートンアルゴリズム
- Authors: Yixian Zhang, Huaze Tang, Chao Wang, Wenbo Ding,
- Abstract要約: カーネルヒルベルト空間(RKHS)の再生に代表されるRLポリシーに特化して設計された最初の2次最適化フレームワークであるPolicy Newtonを紹介する。
本手法は,立方体正規化補助目的関数を最適化することにより,逆ヘッセン作用素の直接計算を回避できる。
おもちゃの金融資産配分問題に関する実証評価は、これらの理論的性質を検証する。
- 参考スコア(独自算出の注目度): 6.072744867251116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) policies represented in Reproducing Kernel Hilbert Spaces (RKHS) offer powerful representational capabilities. While second-order optimization methods like Newton's method demonstrate faster convergence than first-order approaches, current RKHS-based policy optimization remains constrained to first-order techniques. This limitation stems primarily from the intractability of explicitly computing and inverting the infinite-dimensional Hessian operator in RKHS. We introduce Policy Newton in RKHS, the first second-order optimization framework specifically designed for RL policies represented in RKHS. Our approach circumvents direct computation of the inverse Hessian operator by optimizing a cubic regularized auxiliary objective function. Crucially, we leverage the Representer Theorem to transform this infinite-dimensional optimization into an equivalent, computationally tractable finite-dimensional problem whose dimensionality scales with the trajectory data volume. We establish theoretical guarantees proving convergence to a local optimum with a local quadratic convergence rate. Empirical evaluations on a toy financial asset allocation problem validate these theoretical properties, while experiments on standard RL benchmarks demonstrate that Policy Newton in RKHS achieves superior convergence speed and higher episodic rewards compared to established first-order RKHS approaches and parametric second-order methods. Our work bridges a critical gap between non-parametric policy representations and second-order optimization methods in reinforcement learning.
- Abstract(参考訳): Reinforcement Learning (RL) は、Reproduction Kernel Hilbert Spaces (RKHS) で表されるポリシーであり、強力な表現能力を提供する。
ニュートン法のような2次最適化手法は1次アプローチよりも高速な収束を示すが、現在のRKHSベースのポリシー最適化は1次手法に制約を課している。
この制限は主に、RKHSの無限次元ヘッセン作用素を明示的に計算し、反転させることの難しさに起因している。
RKHSで表現されるRLポリシーに特化して設計された最初の2次最適化フレームワークであるRKHSにポリシーニュートンを導入する。
本手法は,立方体正規化補助目的関数を最適化することにより,逆ヘッセン作用素の直接計算を回避できる。
重要なことに、我々はRepresenter Theoremを利用して、この無限次元の最適化を、軌跡データ体積とともに次元がスケールする等価な計算可能な有限次元問題に変換する。
局所2次収束率を持つ局所最適への収束を証明する理論的保証を確立する。
おもちゃの金融資産配分問題に関する実証的な評価は、これらの理論的性質を検証し、標準RLベンチマークでは、RKHSにおけるポリシーニュートンは、確立された1次RKHSアプローチやパラメトリック2次法と比較して、コンバージェンス速度と高いエピソード報酬を達成することを示した。
我々の研究は、強化学習における非パラメトリック政策表現と二階最適化の致命的なギャップを埋める。
関連論文リスト
- Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Mirror Descent on Reproducing Kernel Banach Spaces [12.716091600034543]
本稿では,再生カーネルを用いたバナッハ空間の学習問題に対処する。
再生カーネルを用いてバナッハ空間の双対空間における勾配ステップを利用するアルゴリズムを提案する。
実際にこのアルゴリズムをインスタンス化するために、$p$-normのRKBSの新しいファミリーを導入する。
論文 参考訳(メタデータ) (2024-11-18T02:18:32Z) - Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.325297567945828]
本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。
提案手法は,既存の最先端技術に匹敵する,あるいは適合する新しいオンラインサンプルベース手法に特化していることを示す。
論文 参考訳(メタデータ) (2024-05-15T19:03:08Z) - Incremental Quasi-Newton Methods with Faster Superlinear Convergence
Rates [50.36933471975506]
各成分関数が強く凸であり、リプシッツ連続勾配とヘシアンを持つ有限和最適化問題を考える。
最近提案されたインクリメンタル準ニュートン法は、BFGSの更新に基づいて、局所的な超線形収束率を達成する。
本稿では、対称ランク1更新をインクリメンタルフレームワークに組み込むことにより、より効率的な準ニュートン法を提案する。
論文 参考訳(メタデータ) (2024-02-04T05:54:51Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - DRSOM: A Dimension Reduced Second-Order Method [13.778619250890406]
信頼的な枠組みの下では,2次法の収束を保ちながら,数方向の情報のみを用いる。
理論的には,この手法は局所収束率と大域収束率が$O(epsilon-3/2)$であり,第1次条件と第2次条件を満たすことを示す。
論文 参考訳(メタデータ) (2022-07-30T13:05:01Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Acceleration Methods [57.202881673406324]
まず2次最適化問題を用いて加速法を2つ導入する。
我々は、ネステロフの精巧な研究から始まる運動量法を詳細に論じる。
我々は、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。
論文 参考訳(メタデータ) (2021-01-23T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。