論文の概要: A functional mirror ascent view of policy gradient methods with function
approximation
- arxiv url: http://arxiv.org/abs/2108.05828v1
- Date: Thu, 12 Aug 2021 16:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:47:26.039436
- Title: A functional mirror ascent view of policy gradient methods with function
approximation
- Title(参考訳): 関数近似を用いた政策勾配法の関数ミラー上昇ビュー
- Authors: Sharan Vaswani, Olivier Bachem, Simone Totaro, Robert Mueller,
Matthieu Geist, Marlos C. Machado, Pablo Samuel Castro, Nicolas Le Roux
- Abstract要約: 傾斜法のための一般的なフレームワーク(FMA-PGと呼ぶ)を提案するために,関数ミラー昇華を用いる。
単純なポリシーパラメータ化のために、FMA-PGフレームワークは、最適なポリシーが更新の固定点であることを保証します。
また、ポリシーの改善を保証しながら、複雑なポリシーパラメータ化(ニューラルネットワークなど)を処理できます。
- 参考スコア(独自算出の注目度): 49.50959959417955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We use functional mirror ascent to propose a general framework (referred to
as FMA-PG) for designing policy gradient methods. The functional perspective
distinguishes between a policy's functional representation (what are its
sufficient statistics) and its parameterization (how are these statistics
represented) and naturally results in computationally efficient off-policy
updates. For simple policy parameterizations, the FMA-PG framework ensures that
the optimal policy is a fixed point of the updates. It also allows us to handle
complex policy parameterizations (e.g., neural networks) while guaranteeing
policy improvement. Our framework unifies several PG methods and opens the way
for designing sample-efficient variants of existing methods. Moreover, it
recovers important implementation heuristics (e.g., using forward vs reverse KL
divergence) in a principled way. With a softmax functional representation,
FMA-PG results in a variant of TRPO with additional desirable properties. It
also suggests an improved variant of PPO, whose robustness and efficiency we
empirically demonstrate on MuJoCo. Via experiments on simple reinforcement
learning problems, we evaluate algorithms instantiated by FMA-PG.
- Abstract(参考訳): 本稿では,FMA-PG(Functional mirror ascent)を用いて,政策勾配法を設計するための一般的なフレームワークを提案する。
機能的視点は、ポリシーの機能的表現(その十分な統計量)とそのパラメータ化(これらの統計はどのように表現されるか)を区別し、自然に計算効率のよいオフポリシーな更新をもたらす。
単純なポリシーパラメータ化のために、FMA-PGフレームワークは、最適なポリシーが更新の固定点であることを保証します。
また、ポリシーの改善を保証しながら、複雑なポリシーパラメータ化(ニューラルネットワークなど)を処理できます。
本フレームワークは複数のpgメソッドを統合し,既存のメソッドのサンプル効率のよい変種を設計する方法を開く。
さらに、重要な実装ヒューリスティック(例えば、フォワードとリバースklの分岐を使う)を原則的に復元する。
ソフトマックス関数表現では、FMA-PGはTRPOの変種として望ましい性質を持つ。
また、PPOの改良版が提案されており、その堅牢性と効率性は MuJoCo 上で実証的に実証されている。
単純な強化学習問題に対する実験により,FMA-PGによるアルゴリズムの評価を行った。
関連論文リスト
- Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning [7.07623669995408]
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的アクター批判(iAC)フレームワークを提案する。
学習ポリシーは指数的減衰感度(EDS)特性を介して学習したアクターパラメータの準最適性に頑健であることを示す。
提案手法を実世界の2つのアプリケーションで検証し, 最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-08-27T19:04:32Z) - Optimistic Multi-Agent Policy Gradient [23.781837938235036]
相対的過一般化 (Relative Over generalization, RO) は、エージェントが準最適結合ポリシーに向かって収束する際に起こる。
マルチエージェントポリシー勾配(MAPG)法では,ROに対処する手法は提案されていない。
本稿では,RO問題を緩和するMAPG手法の楽観的な更新を可能にする,汎用的でシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:47:54Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Model-Based Decentralized Policy Optimization [27.745312627153012]
分散されたポリシー最適化は、協調的なマルチエージェントタスクでよく使われてきた。
モデルベース分散ポリシー最適化(MDPO)を提案する。
MDPOの政策最適化はモデルフリーの分散政策最適化よりも安定である。
論文 参考訳(メタデータ) (2023-02-16T08:15:18Z) - Mono-surrogate vs Multi-surrogate in Multi-objective Bayesian
Optimisation [0.0]
目的関数毎に代理モデルを構築し、スカラー化関数分布がガウス的でないことを示す。
標準ベンチマークや実世界の最適化問題に対する既存手法との比較は,マルチサロゲート方式の可能性を示している。
論文 参考訳(メタデータ) (2022-05-02T09:25:04Z) - CUP: A Conservative Update Policy Algorithm for Safe Reinforcement
Learning [14.999515900425305]
理論的安全性を保証した保守的更新政策を提案する。
我々は、代理関数を一般化優位(GAE)に拡張するための厳密な理論解析を提供する。
安全な制約を設計するためのCUPの有効性を示す実験がある。
論文 参考訳(メタデータ) (2022-02-15T16:49:28Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。