Fugu-MT 論文翻訳(概要): A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence

論文の概要: A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence

arxiv url: http://arxiv.org/abs/2301.13139v4
Date: Tue, 13 Feb 2024 17:18:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 20:21:25.790372
Title: A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence
Title（参考訳）: 一般パラメータ化と線形収束を考慮した政策鏡用新フレームワーク
Authors: Carlo Alfano, Rui Yuan, Patrick Rebeschini
Abstract要約: ミラー降下に基づくポリシー最適化のための新しいフレームワークを提案する。一般パラメータ化を含む政策次数法に対して線形収束を保証する最初の結果を得る。
参考スコア（独自算出の注目度）: 15.807079236265714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern policy optimization methods in reinforcement learning, such as TRPO and PPO, owe their success to the use of parameterized policies. However, while theoretical guarantees have been established for this class of algorithms, especially in the tabular setting, the use of general parameterization schemes remains mostly unjustified. In this work, we introduce a novel framework for policy optimization based on mirror descent that naturally accommodates general parameterizations. The policy class induced by our scheme recovers known classes, e.g., softmax, and generates new ones depending on the choice of mirror map. Using our framework, we obtain the first result that guarantees linear convergence for a policy-gradient-based method involving general parameterization. To demonstrate the ability of our framework to accommodate general parameterization schemes, we provide its sample complexity when using shallow neural networks, show that it represents an improvement upon the previous best results, and empirically validate the effectiveness of our theoretical claims on classic control tasks.
Abstract（参考訳）: TRPOやPPOのような強化学習における近代的なポリシー最適化手法は、パラメータ化されたポリシーの使用によって成功している。しかし、このクラスのアルゴリズム、特に表の設定では理論的な保証が確立されているが、一般的なパラメータ化スキームの使用はほとんど不当である。本稿では,一般パラメータ化を自然に適応するミラー降下に基づくポリシー最適化のための新しい枠組みを提案する。このスキームによって引き起こされるポリシークラスは、既知のクラス、例えばsoftmaxを復元し、ミラーマップの選択に応じて新しいクラスを生成する。この枠組みを用いて,一般パラメータ化を含むポリシー勾配に基づく手法の線形収束を保証する最初の結果を得る。一般的なパラメータ化スキームに適合するフレームワークの能力を実証するため、浅層ニューラルネットワークを用いた場合のサンプル複雑性を示し、従来の最適結果の改善を示し、古典的な制御タスクにおける理論的主張の有効性を実証的に検証した。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文参考訳（メタデータ） (2024-07-24T12:00:30Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
On Optimal Regularization Parameters via Bilevel Learning [0.06213771671016098]
我々は、既存の理論よりも最適な正則化パラメータの正則性をよりよく特徴づける新しい条件を提供する。数値計算の結果は, この新条件を, 小型・高次元の両問題に対して検証し, 検討した。
論文参考訳（メタデータ） (2023-05-28T12:34:07Z)
A Parametric Class of Approximate Gradient Updates for Policy Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文参考訳（メタデータ） (2022-06-17T01:28:38Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。勾配に基づく解法を用いる場合、REPSの性能には保証がない。最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文参考訳（メタデータ） (2021-03-17T16:22:59Z)
Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文参考訳（メタデータ） (2020-07-13T06:03:15Z)
Neural Proximal/Trust Region Policy Optimization Attains Globally Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文参考訳（メタデータ） (2019-06-25T03:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。