論文の概要: A functional mirror ascent view of policy gradient methods with function
approximation
- arxiv url: http://arxiv.org/abs/2108.05828v1
- Date: Thu, 12 Aug 2021 16:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:47:26.039436
- Title: A functional mirror ascent view of policy gradient methods with function
approximation
- Title(参考訳): 関数近似を用いた政策勾配法の関数ミラー上昇ビュー
- Authors: Sharan Vaswani, Olivier Bachem, Simone Totaro, Robert Mueller,
Matthieu Geist, Marlos C. Machado, Pablo Samuel Castro, Nicolas Le Roux
- Abstract要約: 傾斜法のための一般的なフレームワーク(FMA-PGと呼ぶ)を提案するために,関数ミラー昇華を用いる。
単純なポリシーパラメータ化のために、FMA-PGフレームワークは、最適なポリシーが更新の固定点であることを保証します。
また、ポリシーの改善を保証しながら、複雑なポリシーパラメータ化(ニューラルネットワークなど)を処理できます。
- 参考スコア(独自算出の注目度): 49.50959959417955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We use functional mirror ascent to propose a general framework (referred to
as FMA-PG) for designing policy gradient methods. The functional perspective
distinguishes between a policy's functional representation (what are its
sufficient statistics) and its parameterization (how are these statistics
represented) and naturally results in computationally efficient off-policy
updates. For simple policy parameterizations, the FMA-PG framework ensures that
the optimal policy is a fixed point of the updates. It also allows us to handle
complex policy parameterizations (e.g., neural networks) while guaranteeing
policy improvement. Our framework unifies several PG methods and opens the way
for designing sample-efficient variants of existing methods. Moreover, it
recovers important implementation heuristics (e.g., using forward vs reverse KL
divergence) in a principled way. With a softmax functional representation,
FMA-PG results in a variant of TRPO with additional desirable properties. It
also suggests an improved variant of PPO, whose robustness and efficiency we
empirically demonstrate on MuJoCo. Via experiments on simple reinforcement
learning problems, we evaluate algorithms instantiated by FMA-PG.
- Abstract(参考訳): 本稿では,FMA-PG(Functional mirror ascent)を用いて,政策勾配法を設計するための一般的なフレームワークを提案する。
機能的視点は、ポリシーの機能的表現(その十分な統計量)とそのパラメータ化(これらの統計はどのように表現されるか)を区別し、自然に計算効率のよいオフポリシーな更新をもたらす。
単純なポリシーパラメータ化のために、FMA-PGフレームワークは、最適なポリシーが更新の固定点であることを保証します。
また、ポリシーの改善を保証しながら、複雑なポリシーパラメータ化(ニューラルネットワークなど)を処理できます。
本フレームワークは複数のpgメソッドを統合し,既存のメソッドのサンプル効率のよい変種を設計する方法を開く。
さらに、重要な実装ヒューリスティック(例えば、フォワードとリバースklの分岐を使う)を原則的に復元する。
ソフトマックス関数表現では、FMA-PGはTRPOの変種として望ましい性質を持つ。
また、PPOの改良版が提案されており、その堅牢性と効率性は MuJoCo 上で実証的に実証されている。
単純な強化学習問題に対する実験により,FMA-PGによるアルゴリズムの評価を行った。
関連論文リスト
- Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Model-Based Decentralized Policy Optimization [27.745312627153012]
分散されたポリシー最適化は、協調的なマルチエージェントタスクでよく使われてきた。
モデルベース分散ポリシー最適化(MDPO)を提案する。
MDPOの政策最適化はモデルフリーの分散政策最適化よりも安定である。
論文 参考訳(メタデータ) (2023-02-16T08:15:18Z) - Mono-surrogate vs Multi-surrogate in Multi-objective Bayesian
Optimisation [0.0]
目的関数毎に代理モデルを構築し、スカラー化関数分布がガウス的でないことを示す。
標準ベンチマークや実世界の最適化問題に対する既存手法との比較は,マルチサロゲート方式の可能性を示している。
論文 参考訳(メタデータ) (2022-05-02T09:25:04Z) - R-MBO: A Multi-surrogate Approach for Preference Incorporation in
Multi-objective Bayesian Optimisation [0.0]
本稿では,多目的BOにおける意思決定者の嗜好として,目的関数を目的関数値に組み込むための,a-priori Multi-surrogateアプローチを提案する。
ベンチマークと実世界の最適化問題に対する既存モノ代理手法との比較は,提案手法の可能性を示している。
論文 参考訳(メタデータ) (2022-04-27T19:58:26Z) - CUP: A Conservative Update Policy Algorithm for Safe Reinforcement
Learning [14.999515900425305]
理論的安全性を保証した保守的更新政策を提案する。
我々は、代理関数を一般化優位(GAE)に拡張するための厳密な理論解析を提供する。
安全な制約を設計するためのCUPの有効性を示す実験がある。
論文 参考訳(メタデータ) (2022-02-15T16:49:28Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。