Fugu-MT 論文翻訳(概要): Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning

論文の概要: Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning

arxiv url: http://arxiv.org/abs/2205.10047v1
Date: Fri, 20 May 2022 09:38:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 01:24:08.231577
Title: Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning
Title（参考訳）: sigmoidally preconditioned off-policy learning:強化学習のための新しい探索法
Authors: Xing Chen, Dongcui Diao, Hechang Chen, Hengshuai Yao, Jielong Yang, Haiyin Piao, Zhixiao Sun, Bei Jiang, Yi Chang
Abstract要約: 政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。 P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
参考スコア（独自算出の注目度）: 14.991913317341417
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the major difficulties of reinforcement learning is learning from {\em off-policy} samples, which are collected by a different policy (behavior policy) from what the algorithm evaluates (the target policy). Off-policy learning needs to correct the distribution of the samples from the behavior policy towards that of the target policy. Unfortunately, important sampling has an inherent high variance issue which leads to poor gradient estimation in policy gradient methods. We focus on an off-policy Actor-Critic architecture, and propose a novel method, called Preconditioned Proximal Policy Optimization (P3O), which can control the high variance of importance sampling by applying a preconditioner to the Conservative Policy Iteration (CPI) objective. {\em This preconditioning uses the sigmoid function in a special way that when there is no policy change, the gradient is maximal and hence policy gradient will drive a big parameter update for an efficient exploration of the parameter space}. This is a novel exploration method that has not been studied before given that existing exploration methods are based on the novelty of states and actions. We compare with several best-performing algorithms on both discrete and continuous tasks and the results confirmed that {\em P3O is more off-policy than PPO} according to the "off-policyness" measured by the DEON metric, and P3O explores in a larger policy space than PPO. Results also show that our P3O maximizes the CPI objective better than PPO during the training process.
Abstract（参考訳）: 強化学習の大きな難点の1つは、"em off-policy} サンプルから学習することであり、これはアルゴリズムが評価するもの(ターゲットポリシー)とは異なるポリシー(行動ポリシー)によって収集される。オフポリシー学習は、行動ポリシーからターゲットポリシーへのサンプルの分布を補正する必要がある。残念ながら、重要なサンプリングは本質的に高分散の問題であり、政策勾配法では勾配推定が不十分である。本稿では,非政治的アクター・クリティカルアーキテクチャに着目し,保守政策イテレーション(CPI)の目的にプレコンディショナーを適用することで,重要度サンプリングの高分散を制御できるプリコンディショニング・プロキシ・ポリシー・オプティマイション(P3O)という新しい手法を提案する。このプリコンディショニングは、ポリシーが変更されていない場合、勾配が最大であり、従ってポリシー勾配がパラメータ空間の効率的な探索のために大きなパラメータ更新を駆動する特別な方法で、sgmoid関数を使用する。これは、既存の探査手法が状態や行動の新規性に基づいていることを考えれば、これまで研究されていない新しい探査方法である。離散的タスクと連続的タスクの両方で最高のパフォーマンスのアルゴリズムを比較し、DECON測定値の「オフ・ポリティネス」に基づいて、P3OはPPOよりもオフ・ポリティシーであることが確認され、P3OはPPOよりも大きなポリシー空間で探索する。また,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることを示した。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Residual Policy Gradient: A Reward View of KL-regularized Objective [48.39829592175419]
強化学習と模倣学習は多くの領域で広く成功しているが、実世界の展開には制約が残っている。ポリシーのカスタマイズは、その固有の特性を維持しつつ、新しいタスク固有の要件を満たしながら、事前のポリシーに適応することを目的として導入された。ポリシーのカスタマイズに対する原則的なアプローチはResidual Q-Learning (RQL)であり、マルコフ決定プロセス(MDP)として問題を定式化し、価値に基づく学習アルゴリズムのファミリを導出する。 RQLをポリシーグラデーションメソッドに拡張し、グラデーションベースのRL設定でのポリシーカスタマイズを可能にするResidual Policy Gradient(RPG)を導入する。
論文参考訳（メタデータ） (2025-03-14T02:30:13Z)
Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文参考訳（メタデータ） (2024-11-15T02:46:55Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。 PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文参考訳（メタデータ） (2024-04-18T01:27:31Z)
Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-12-14T07:50:21Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。 PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文参考訳（メタデータ） (2023-11-10T03:02:49Z)
Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文参考訳（メタデータ） (2020-10-27T13:40:06Z)
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文参考訳（メタデータ） (2020-06-06T15:52:05Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。