Fugu-MT 論文翻訳(概要): Policy Gradient with Active Importance Sampling

論文の概要: Policy Gradient with Active Importance Sampling

arxiv url: http://arxiv.org/abs/2405.05630v1
Date: Thu, 9 May 2024 09:08:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 13:52:35.645167
Title: Policy Gradient with Active Importance Sampling
Title（参考訳）: アクティブな重要度サンプリングによる政策グラディエント
Authors: Matteo Papini, Giorgio Manganini, Alberto Maria Metelli, Marcello Restelli,
Abstract要約: 政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
参考スコア（独自算出の注目度）: 55.112959067035916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Importance sampling (IS) represents a fundamental technique for a large surge of off-policy reinforcement learning approaches. Policy gradient (PG) methods, in particular, significantly benefit from IS, enabling the effective reuse of previously collected samples, thus increasing sample efficiency. However, classically, IS is employed in RL as a passive tool for re-weighting historical samples. However, the statistical community employs IS as an active tool combined with the use of behavioral distributions that allow the reduction of the estimate variance even below the sample mean one. In this paper, we focus on this second setting by addressing the behavioral policy optimization (BPO) problem. We look for the best behavioral policy from which to collect samples to reduce the policy gradient variance as much as possible. We provide an iterative algorithm that alternates between the cross-entropy estimation of the minimum-variance behavioral policy and the actual policy optimization, leveraging on defensive IS. We theoretically analyze such an algorithm, showing that it enjoys a convergence rate of order $O(\epsilon^{-4})$ to a stationary point, but depending on a more convenient variance term w.r.t. standard PG methods. We then provide a practical version that is numerically validated, showing the advantages in the policy gradient estimation variance and on the learning speed.
Abstract（参考訳）: 重要度サンプリング(Importance sample,IS)は、非政治的強化学習の大規模な普及のための基礎的手法である。政策勾配法(PG法)は特にISから大きな恩恵を受けており, 試料の有効再利用が可能となり, 試料効率が向上した。しかし、古典的には、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。しかし、統計学的コミュニティはISをアクティブなツールとして利用し、行動分布を用いることで、サンプル平均値より下方でも推定分散の低減を可能にしている。本稿では、行動ポリシー最適化(BPO)問題に対処することで、この2つ目の設定に焦点を当てる。我々は,政策勾配のばらつきを極力低減するために,サンプルを収集する最善の行動方針を模索する。我々は、最小分散行動ポリシーのクロスエントロピー推定と実際のポリシー最適化を交互に交互に行い、防御ISを活用する反復アルゴリズムを提案する。このようなアルゴリズムを理論的に解析し、より便利な分散項 w.r.t. 標準PG 法に依存するが、位数$O(\epsilon^{-4})$ の収束率を定常点に楽しむことを示す。次に,政策勾配推定のばらつきと学習速度の利点を示す数値的検証を行う実用版を提案する。

関連論文リスト

Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文参考訳（メタデータ） (2025-06-06T15:42:15Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T19:53:56Z)
$Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文参考訳（メタデータ） (2024-05-16T12:04:55Z)
Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文参考訳（メタデータ） (2023-02-05T04:44:35Z)
The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。世界的な最適な政策勾配(NPG)に収束する。 O (1/t) レート勾配でのポリシー。値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文参考訳（メタデータ） (2023-01-16T06:28:00Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Sparse Feature Selection Makes Batch Reinforcement Learning More Sample Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文参考訳（メタデータ） (2020-11-08T16:48:02Z)
Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文参考訳（メタデータ） (2020-10-27T13:40:06Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)
Relative Importance Sampling for off-Policy Actor-Critic in Deep Reinforcement Learning [32.66049977978746]
強化学習(RL)におけるオフ・ポリティクス学習は、オンライン・ポリティクス学習と比較して不安定性が高い本研究では, 分散を緩和し, 学習を安定させる, スムーズな重要サンプリング, 特に相対重要サンプリング(RIS)を提案する。提案手法は,OpenAI Gym課題と合成データセットに関するいくつかの最先端のRLベンチマークに匹敵する性能を示した。
論文参考訳（メタデータ） (2018-10-30T07:41:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。