論文の概要: Relative Entropy Pathwise Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.11019v2
- Date: Fri, 18 Jul 2025 20:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 12:28:43.142913
- Title: Relative Entropy Pathwise Policy Optimization
- Title(参考訳): 相対エントロピーパスワイズポリシー最適化
- Authors: Claas Voelcker, Axel Brunnbauer, Marcel Hussing, Michal Nauman, Pieter Abbeel, Eric Eaton, Radu Grosu, Amir-massoud Farahmand, Igor Gilitschenski,
- Abstract要約: そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。
本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
- 参考スコア(独自算出の注目度): 56.86405621176669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-function policy gradients have delivered strong results in game-playing, robotics and language-model fine-tuning. Yet its high-variance often undermines training stability. On the other hand, pathwise policy gradients alleviate the training variance, but are reliable only when driven by an accurate action-conditioned value function which is notoriously hard to train without relying on past off-policy data. In this paper, we discuss how to construct a value-gradient driven, on-policy algorithm that allow training Q-value models purely from on-policy data, unlocking the possibility of using pathwise policy updates in the context of on-policy learning. We show how to balance stochastic policies for exploration with constrained policy updates for stable training, and evaluate important architectural components that facilitate accurate value function learning. Building on these insights, we propose Relative Entropy Pathwise Policy Optimization (REPPO), an efficient on-policy algorithm that combines the sample-efficiency of pathwise policy gradients with the simplicity and minimal memory footprint of standard on-policy learning. We demonstrate that REPPO provides strong empirical performance at decreased sample requirements, wall-clock time, memory footprint as well as high hyperparameter robustness in a set of experiments on two standard GPU-parallelized benchmarks.
- Abstract(参考訳): スコア関数のポリシー勾配は、ゲームプレイング、ロボティクス、言語モデル微調整において大きな成果をもたらした。
しかし、その高分散はしばしば訓練の安定性を損なう。
一方、パスワイズポリシー勾配はトレーニングの分散を緩和するが、過去のオフ政治データに頼ることなくトレーニングが困難な正確なアクション条件付値関数によって駆動される場合にのみ信頼性がある。
そこで本稿では,Q-value Model をオンラインデータから純粋にトレーニングする手段として,Q-value Model をオン政治学習の文脈でパスワイズなポリシー更新を適用可能にするための,価値段階的なオン政治アルゴリズムの構築方法について論じる。
安定トレーニングのための制約付きポリシー更新と探索のための確率的ポリシーのバランスをとる方法を示し、正確な価値関数学習を容易にする重要なアーキテクチャコンポーネントを評価する。
これらの知見に基づいて、パスワイズポリシー勾配のサンプル効率と標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた効率的なオンライン政治アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
我々は,2つの標準GPU並列化ベンチマークの一連の実験において,REPPOがサンプル要求の減少,壁面時間,メモリフットプリント,高ハイパーパラメータロバスト性に対して強い実験性能を提供することを示した。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Logarithmic Smoothing for Adaptive PAC-Bayesian Off-Policy Learning [4.48890356952206]
オフ政治学習は、ログ化された相互作用から最適なポリシーを学ぶための主要なフレームワークとなる。
我々はこのフレームワークをオンラインPAC-ベイジアン理論のツールを用いて適応シナリオに拡張する。
論文 参考訳(メタデータ) (2025-06-12T12:54:09Z) - KIPPO: Koopman-Inspired Proximal Policy Optimization [4.46358470535211]
強化学習(RL)は様々な分野で大きな進歩を遂げてきた。
PPO(Proximal Policy)のような政策勾配法は、性能、安定性、計算効率のバランスのために人気を博している。
論文 参考訳(メタデータ) (2025-05-20T16:25:41Z) - TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint [11.347808936693152]
モデルベースの強化学習アルゴリズムは、モデルベースの計画と学習された価値/政治を組み合わせる。
バリューラーニングに標準のSACスタイルのポリシーイテレーションに依存する既存の手法は、しばしばエンハンピスタントな価値過大評価をもたらす。
本稿では,ODAクエリを削減し,価値学習を改善する政策正規化項を提案する。
論文 参考訳(メタデータ) (2025-02-05T19:08:42Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。