論文の概要: When Do Off-Policy and On-Policy Policy Gradient Methods Align?
- arxiv url: http://arxiv.org/abs/2402.12034v1
- Date: Mon, 19 Feb 2024 10:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:03:47.479557
- Title: When Do Off-Policy and On-Policy Policy Gradient Methods Align?
- Title(参考訳): オフ・ポリティィとオン・ポリティィ・ポリシー・グラディエント・メソッドはいつ整合するのか?
- Authors: Davide Mambelli, Stephan Bongers, Onno Zoeter, Matthijs T.J. Spaan,
Frans A. Oliehoek
- Abstract要約: 政策勾配法は連続的な行動空間を持つタスクに対する強化学習アルゴリズムとして広く採用されている。
サンプル効率を改善するための一般的な方法は、重要でないサンプリングから計算可能な目的関数を変更することである。
本研究は,旅行目標と従来の政治目標との差について検討し,その差をオンオフギャップと呼ぶ。
- 参考スコア(独自算出の注目度): 15.7221450531432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods are widely adopted reinforcement learning algorithms
for tasks with continuous action spaces. These methods succeeded in many
application domains, however, because of their notorious sample inefficiency
their use remains limited to problems where fast and accurate simulations are
available. A common way to improve sample efficiency is to modify their
objective function to be computable from off-policy samples without importance
sampling. A well-established off-policy objective is the excursion objective.
This work studies the difference between the excursion objective and the
traditional on-policy objective, which we refer to as the on-off gap. We
provide the first theoretical analysis showing conditions to reduce the on-off
gap while establishing empirical evidence of shortfalls arising when these
conditions are not met.
- Abstract(参考訳): 政策勾配法は連続的な行動空間を持つタスクに対する強化学習アルゴリズムとして広く採用されている。
しかし、これらの手法は多くのアプリケーション領域で成功したが、その悪名高いサンプルの効率が悪いため、高速で正確なシミュレーションが利用できる問題に限られている。
サンプル効率を改善する一般的な方法は、重要でないサンプリングから計算可能な目的関数を変更することである。
確立されたオフ・ポリシーの目標は、エクスカージョンの目的である。
本研究は,旅行目標と従来の政治目標との差について検討し,その差をオンオフギャップと呼ぶ。
オンオフギャップを減少させる条件を示す最初の理論解析を行い、これらの条件が満たされない場合に発生する不足の実証的証拠を確立する。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Behind the Myth of Exploration in Policy Gradients [1.9171404264679484]
ポリシーグラディエントアルゴリズムは、連続状態と行動空間による制御問題を解くための効果的な強化学習手法である。
準最適政策を計算するためには,探索用語を学習目的に含めることが不可欠である。
論文 参考訳(メタデータ) (2024-01-31T20:37:09Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。