論文の概要: What About Inputing Policy in Value Function: Policy Representation and
Policy-extended Value Function Approximator
- arxiv url: http://arxiv.org/abs/2010.09536v4
- Date: Wed, 15 Dec 2021 17:14:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:47:39.765946
- Title: What About Inputing Policy in Value Function: Policy Representation and
Policy-extended Value Function Approximator
- Title(参考訳): 価値関数の入力政策について--政策表現と拡張価値関数近似器
- Authors: Hongyao Tang, Zhaopeng Meng, Jianye Hao, Chen Chen, Daniel Graves,
Dong Li, Changmin Yu, Hangyu Mao, Wulong Liu, Yaodong Yang, Wenyuan Tao, Li
Wang
- Abstract要約: 強化学習(RL)における政策拡張価値関数近似器(PeVFA)について検討する。
我々は,PeVFAが提供する一般化値の推定値が,初期近似誤差を連続ポリシーの真値に低下させる可能性があることを示す。
本稿ではRLポリシーの表現学習フレームワークを提案し、ポリシーネットワークパラメータや状態-作用ペアから効果的なポリシー埋め込みを学習するためのいくつかのアプローチを提供する。
- 参考スコア(独自算出の注目度): 39.287998861631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Policy-extended Value Function Approximator (PeVFA) in Reinforcement
Learning (RL), which extends conventional value function approximator (VFA) to
take as input not only the state (and action) but also an explicit policy
representation. Such an extension enables PeVFA to preserve values of multiple
policies at the same time and brings an appealing characteristic, i.e.,
\emph{value generalization among policies}. We formally analyze the value
generalization under Generalized Policy Iteration (GPI). From theoretical and
empirical lens, we show that generalized value estimates offered by PeVFA may
have lower initial approximation error to true values of successive policies,
which is expected to improve consecutive value approximation during GPI. Based
on above clues, we introduce a new form of GPI with PeVFA which leverages the
value generalization along policy improvement path. Moreover, we propose a
representation learning framework for RL policy, providing several approaches
to learn effective policy embeddings from policy network parameters or
state-action pairs. In our experiments, we evaluate the efficacy of value
generalization offered by PeVFA and policy representation learning in several
OpenAI Gym continuous control tasks. For a representative instance of algorithm
implementation, Proximal Policy Optimization (PPO) re-implemented under the
paradigm of GPI with PeVFA achieves about 40\% performance improvement on its
vanilla counterpart in most environments.
- Abstract(参考訳): 強化学習(RL)におけるポリシ拡張値関数近似器(PeVFA)について検討し、従来の値関数近似器(VFA)を拡張して、状態(および行動)だけでなく明示的なポリシー表現を入力とする。
このような拡張により、PeVFAは同時に複数のポリシーの値を保存することができ、例えばポリシー間の「emph{value generalization」という魅力的な特性をもたらす。
一般化政策イテレーション(GPI)に基づく価値一般化を正式に分析する。
理論的および経験的レンズから、PeVFAが提供する一般化値推定は、連続ポリシーの真値に対する初期近似誤差を低くし、GPI中の連続値近似を改善することが期待できることを示す。
以上の知見に基づいて、政策改善経路に沿った価値一般化を利用するPeVFAを用いたGPIの新たな形式を導入する。
さらに、政策ネットワークパラメータや状態-作用ペアから効果的な政策埋め込みを学習するためのいくつかのアプローチを提供するRLポリシーの表現学習フレームワークを提案する。
実験では,複数のOpenAI Gym連続制御タスクにおいて,PeVFAが提供する価値一般化と政策表現学習の有効性を評価した。
アルゴリズム実装の代表的な例として、PPO(Proximal Policy Optimization)は、GPIとPeVFAのパラダイムの下で再実装され、ほとんどの環境でそのバニラに対して約40%の性能改善が達成される。
関連論文リスト
- Reflective Policy Optimization [20.228281670899204]
リフレクティブポリシー最適化(RPO) 政策最適化のための過去と将来の状態対応情報。
RPOはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。
RPOの有効性と有効性は2つの強化学習ベンチマークで実証された。
論文 参考訳(メタデータ) (2024-06-06T01:46:49Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Decoupling Value and Policy for Generalization in Reinforcement Learning [20.08992844616678]
我々は、最適なポリシーを学ぶよりも、価値関数を正確に見積もるためにより多くの情報が必要であると論じる。
IDAAC(Invariant Decoupled Advantage Actor-Critic)の2つのアプローチを提案します。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
論文 参考訳(メタデータ) (2021-02-20T12:40:11Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。