論文の概要: Monotone and Conservative Policy Iteration Beyond the Tabular Case
- arxiv url: http://arxiv.org/abs/2506.07134v2
- Date: Sat, 11 Oct 2025 19:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.761584
- Title: Monotone and Conservative Policy Iteration Beyond the Tabular Case
- Title(参考訳): 単調・保守的政策反復を要した口蓋裂症例の1例
- Authors: S. R. Eshwar, Gugan Thoppe, Ananyabrata Barua, Aditya Gopalan, Gal Dalal,
- Abstract要約: RPI(Reliable Policy Iteration)とCRPI(Reserveal RPI)を紹介する。
RPIとCRPIは、ポリシーイテレーション(PI)と保守PI(CPI)の変種である
RPIは,評価値の教科書のテクスタイトモノトニクスを復元し,それらの推定値が真のリターンを確実にテクスタイトローダーバウンドすることを示す。
- 参考スコア(独自算出の注目度): 11.483050048037752
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Reliable Policy Iteration (RPI) and Conservative RPI (CRPI), variants of Policy Iteration (PI) and Conservative PI (CPI), that retain tabular guarantees under function approximation. RPI uses a novel Bellman-constrained optimization for policy evaluation. We show that RPI restores the textbook \textit{monotonicity} of value estimates and that these estimates provably \textit{lower-bound} the true return; moreover, their limit partially satisfies the \textit{unprojected} Bellman equation. CRPI shares RPI's evaluation, but updates policies conservatively by maximizing a new performance-difference \textit{lower bound} that explicitly accounts for function-approximation-induced errors. CRPI inherits RPI's guarantees and, crucially, admits per-step improvement bounds. In initial simulations, RPI and CRPI outperform PI and its variants. Our work addresses a foundational gap in RL: popular algorithms such as TRPO and PPO derive from tabular CPI yet are deployed with function approximation, where CPI's guarantees often fail-leading to divergence, oscillations, or convergence to suboptimal policies. By restoring PI/CPI-style guarantees for \textit{arbitrary} function classes, RPI and CRPI provide a principled basis for next-generation RL.
- Abstract(参考訳): 本稿では,機能近似の下での表層保証を維持できる信頼性ポリシイテレーション(RPI)と保守的RPI(CRPI),政策イテレーション(PI)と保守的PI(CPI)について紹介する。
RPIは、ポリシー評価にベルマン制約付き最適化を使用する。
RPI は値推定の教科書 \textit{monotonicity} を復元し、これらの推定値が真戻り値であることを示す。
CRPIはRPIの評価を共有するが、関数近似によるエラーを明示的に考慮した新しいパフォーマンス差分 \textit{lower bound} を最大化することで、ポリシーを保守的に更新する。
CRPIはRPIの保証を継承し、重要な点として、ステップごとの改善境界を認める。
初期のシミュレーションでは、RPIとCRPIはPIとその変種より優れていた。
TRPOやPPOといった一般的なアルゴリズムは表計算CPIから導かれるが、関数近似によって展開される。
関数クラス \textit{arbitrary} に対する PI/CPI スタイルの保証を復元することにより、RPI と CRPI は、次世代 RL の原則的な基盤を提供する。
関連論文リスト
- Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient [18.64288030584699]
異種多エージェント強化学習(MARL)
逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。
一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
論文 参考訳(メタデータ) (2025-07-14T07:16:01Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Upside-Down Reinforcement Learning Can Diverge in Stochastic
Environments With Episodic Resets [4.126347193869613]
Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要としない問題を解決するためのアプローチである。
Goal-Conditional Supervised Learning (GCSL)は目標達成性能の低い境界を最適化した。
これにより、任意の環境における最適ポリシーへの保証された収束を享受できるという期待が高まる。
論文 参考訳(メタデータ) (2022-05-13T12:43:25Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。