Fugu-MT 論文翻訳(概要): Reliable Critics: Monotonic Improvement and Convergence Guarantees for Reinforcement Learning

論文の概要: Reliable Critics: Monotonic Improvement and Convergence Guarantees for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2506.07134v1
Date: Sun, 08 Jun 2025 13:27:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.683527
Title: Reliable Critics: Monotonic Improvement and Convergence Guarantees for Reinforcement Learning
Title（参考訳）: 信頼性の高い批判:強化学習のための単調な改善と収束保証
Authors: Eshwar S. R., Gugan Thoppe, Aditya Gopalan, Gal Dalal,
Abstract要約: RPI(Reliable Policy Iteration)を紹介する。 RPIはポリシー評価中に共通プロジェクションやベルマンエラーの最小化をベルマンベースの制約付き最適化に置き換える。実用的には、新しい批評家に相当するRPIのモデルフリー版を提供する。
参考スコア（独自算出の注目度）: 18.316821694827734
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite decades of research, it remains challenging to correctly use Reinforcement Learning (RL) algorithms with function approximation. A prime example is policy iteration, whose fundamental guarantee of monotonic improvement collapses even under linear function approximation. To address this issue, we introduce Reliable Policy Iteration (RPI). It replaces the common projection or Bellman-error minimization during policy evaluation with a Bellman-based constrained optimization. We prove that not only does RPI confer textbook monotonicity on its value estimates but these estimates also lower bound the true return. Also, their limit partially satisfies the unprojected Bellman equation, emphasizing RPI's natural fit within RL. RPI is the first algorithm with such monotonicity and convergence guarantees under function approximation. For practical use, we provide a model-free variant of RPI that amounts to a novel critic. It can be readily integrated into primary model-free PI implementations such as DQN and DDPG. In classical control tasks, such RPI-enhanced variants consistently maintain their lower-bound guarantee while matching or surpassing the performance of all baseline methods.
Abstract（参考訳）: 何十年にもわたっての研究にもかかわらず、Reinforcement Learning (RL)アルゴリズムを関数近似で正しく使うことは依然として困難である。主要な例はポリシー反復であり、線形関数近似の下でも単調改善の基本的な保証は崩壊する。この問題に対処するために、信頼性の高いポリシーイテレーション(RPI)を紹介します。これは、ポリシー評価中の共通プロジェクションやベルマンエラーの最小化を、ベルマンベースの制約付き最適化に置き換える。 RPIは、その値の推定値に教科書の単調性を与えるだけでなく、これらの推定値も真の戻り値の境界を低くする。また、それらの極限は計画されていないベルマン方程式を部分的に満たし、RPIのRL内への自然な適合を強調している。 RPIは、関数近似の下でのそのような単調性と収束を保証する最初のアルゴリズムである。実用的には、新しい批評家に相当するRPIのモデルフリー版を提供する。 DQNやDDPGのようなモデルフリーのPI実装に簡単に統合できる。古典的な制御タスクでは、そのようなRPI強化された変種は、すべてのベースラインメソッドのパフォーマンスを一致または超越しながら、一貫して低いバウンド保証を維持している。

関連論文リスト

Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient [18.64288030584699]
異種多エージェント強化学習(MARL) 逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
論文参考訳（メタデータ） (2025-07-14T07:16:01Z)
Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Upside-Down Reinforcement Learning Can Diverge in Stochastic Environments With Episodic Resets [4.126347193869613]
Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要としない問題を解決するためのアプローチである。 Goal-Conditional Supervised Learning (GCSL)は目標達成性能の低い境界を最適化した。これにより、任意の環境における最適ポリシーへの保証された収束を享受できるという期待が高まる。
論文参考訳（メタデータ） (2022-05-13T12:43:25Z)
Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-08-19T17:27:29Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。