Fugu-MT 論文翻訳(概要): Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL

論文の概要: Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL

arxiv url: http://arxiv.org/abs/2305.11032v2
Date: Mon, 4 Dec 2023 02:24:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 23:30:17.855435
Title: Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL
Title（参考訳）: 最適自然政策グラディエント:オンラインRLのためのシンプルな効率的な政策最適化フレームワーク
Authors: Qinghua Liu, Gell\'ert Weisz, Andr\'as Gy\"orgy, Chi Jin, Csaba Szepesv\'ari
Abstract要約: 本稿では,オンラインRLのための最適化NPGという,シンプルな効率的なポリシー最適化フレームワークを提案する。 $d$次元線形 MDP の場合、Optimistic NPG は計算効率が良く、$tildeO(d2/varepsilon3)$サンプル内で $varepsilon$-Optimal Policy を学ぶ。
参考スコア（独自算出の注目度）: 23.957148537567146
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While policy optimization algorithms have played an important role in recent empirical success of Reinforcement Learning (RL), the existing theoretical understanding of policy optimization remains rather limited -- they are either restricted to tabular MDPs or suffer from highly suboptimal sample complexity, especial in online RL where exploration is necessary. This paper proposes a simple efficient policy optimization framework -- Optimistic NPG for online RL. Optimistic NPG can be viewed as a simple combination of the classic natural policy gradient (NPG) algorithm [Kakade, 2001] with optimistic policy evaluation subroutines to encourage exploration. For $d$-dimensional linear MDPs, Optimistic NPG is computationally efficient, and learns an $\varepsilon$-optimal policy within $\tilde{O}(d^2/\varepsilon^3)$ samples, which is the first computationally efficient algorithm whose sample complexity has the optimal dimension dependence $\tilde{\Theta}(d^2)$. It also improves over state-of-the-art results of policy optimization algorithms [Zanette et al., 2021] by a factor of $d$. In the realm of general function approximation, which subsumes linear MDPs, Optimistic NPG, to our best knowledge, stands as the first policy optimization algorithm that achieves polynomial sample complexity for learning near-optimal policies.
Abstract（参考訳）: 政策最適化アルゴリズムは、近年の強化学習(RL)の実証的成功において重要な役割を担っているが、既存の理論的な政策最適化の理解は、表向きのMDPに限定されるか、探索が必要なオンラインRLにおいて非常に最適なサンプル複雑さに悩まされている。楽観的npgは、従来の自然政策勾配 (npg) アルゴリズム [kakade, 2001] と楽観的政策評価サブルーチンの単純な組み合わせと見なすことができ、探索を促進する。 $d$次元線形 MDP に対して、Optimistic NPG は計算効率が高く、$\tilde{O}(d^2/\varepsilon^3)$サンプル内で$\varepsilon$-Optimal Policy を学ぶ。また、政策最適化アルゴリズム[Zanette et al., 2021]の最先端の結果を$d$の係数で改善する。線形 MDP を最良知識として仮定する一般関数近似の分野では、最適化NPG は、多項式サンプルの複雑さを最大に近いポリシーを学ぶための最初のポリシー最適化アルゴリズムである。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文参考訳（メタデータ） (2023-06-15T23:51:46Z)
Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文参考訳（メタデータ） (2023-05-11T14:50:20Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。 VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文参考訳（メタデータ） (2021-06-23T01:08:54Z)
Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation [48.744735294559824]
政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。本稿では,PCPGのサンプル複雑性問題を克服し,モデルのミスセグメンテーションに頑健さを保ちながら,新しいアルゴリズムCOPOEを提案する。その結果、PCPGの$widetildeO (1/epsilon11)$からPCPGの$widetildeO (1/epsilon3)$まで、サンプルの複雑さが改善され、値ベースの技術とのギャップがほぼ埋められます。
論文参考訳（メタデータ） (2021-03-24T01:42:59Z)
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文参考訳（メタデータ） (2021-02-17T07:06:19Z)
Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。 OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文参考訳（メタデータ） (2019-12-12T08:40:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。