論文の概要: Sampling Complexity of TD and PPO in RKHS
- arxiv url: http://arxiv.org/abs/2509.24991v1
- Date: Mon, 29 Sep 2025 16:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.122635
- Title: Sampling Complexity of TD and PPO in RKHS
- Title(参考訳): RKHSにおけるTDとPPOのサンプリング複雑さ
- Authors: Lu Zou, Wendi Ren, Weizhong Zhang, Liang Ding, Shuang Li,
- Abstract要約: 機能空間の観点からPPO(Proximal Policy Optimization)を再考する。
我々の結果は、PPOを有限次元の仮定を超えた厳密な理論上の足場に置く。
- 参考スコア(独自算出の注目度): 32.00317289826905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit Proximal Policy Optimization (PPO) from a function-space perspective. Our analysis decouples policy evaluation and improvement in a reproducing kernel Hilbert space (RKHS): (i) A kernelized temporal-difference (TD) critic performs efficient RKHS-gradient updates using only one-step state-action transition samples; (ii) a KL-regularized, natural-gradient policy step exponentiates the evaluated action-value, recovering a PPO/TRPO-style proximal update in continuous state-action spaces. We provide non-asymptotic, instance-adaptive guarantees whose rates depend on RKHS entropy, unifying tabular, linear, Sobolev, Gaussian, and Neural Tangent Kernel (NTK) regimes, and we derive a sampling rule for the proximal update that ensures the optimal $k^{-1/2}$ convergence rate for stochastic optimization. Empirically, the theory-aligned schedule improves stability and sample efficiency on common control tasks (e.g., CartPole, Acrobot), while our TD-based critic attains favorable throughput versus a GAE baseline. Altogether, our results place PPO on a firmer theoretical footing beyond finite-dimensional assumptions and clarify when RKHS-proximal updates with kernel-TD critics yield global policy improvement with practical efficiency.
- Abstract(参考訳): 機能空間の観点からPPO(Proximal Policy Optimization)を再考する。
我々の分析は、再生カーネルヒルベルト空間(RKHS)における政策評価と改善を分離する。
一 カーネル化された時間差分(TD)批評家は、一段階の状態-作用遷移サンプルのみを用いて効率的なRKHS段階の更新を行う。
(II) KL-規則化された自然勾配ポリシーステップは、評価された作用値を指数化し、連続的な状態-作用空間におけるPPO/TRPOスタイルの近位更新を回復する。
我々は、RKHSエントロピーに依存し、表、線形、ソボレフ、ガウス、ニューラル・タンジェント・カーネル(NTK)体制を統一する非漸近的、インスタンス適応型保証を提供し、確率最適化のための最適な$k^{-1/2}$収束率を保証する近位更新のサンプリングルールを導出する。
理論的に整合したスケジュールは、一般的な制御タスク(例えば、CartPole、Acrobot)の安定性とサンプル効率を改善します。
また,PPOは有限次元の仮定を超越した理論上の基盤の上に置かれ,カーネル-TD評論家によるRKHS近位更新が,実際的効率でグローバルな政策改善をもたらすかを明らかにした。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Beyond the Boundaries of Proximal Policy Optimization [17.577317574595206]
この研究は、更新ベクトルのインナーループ推定に分解されるPPOの別の視点を提供する。
本稿では,これらの更新ベクトルを任意の勾配勾配を用いて適用するフレームワークとして,外部近似ポリシー最適化(outer-PPO)を提案する。
方法はBrax, Jumanji, MinAtar環境上で積極的に調整されたPPOベースラインに対して評価される。
論文 参考訳(メタデータ) (2024-11-01T15:29:10Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。