論文の概要: Policy Gradient for Reinforcement Learning with General Utilities
- arxiv url: http://arxiv.org/abs/2210.00991v2
- Date: Tue, 29 Aug 2023 09:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 19:06:59.455240
- Title: Policy Gradient for Reinforcement Learning with General Utilities
- Title(参考訳): 一般活用による強化学習のための政策グラディエント
- Authors: Navdeep Kumar, Kaixin Wang, Kfir Levy, Shie Mannor
- Abstract要約: 強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
- 参考スコア(独自算出の注目度): 50.65940899590487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), the goal of agents is to discover an optimal
policy that maximizes the expected cumulative rewards. This objective may also
be viewed as finding a policy that optimizes a linear function of its
state-action occupancy measure, hereafter referred as Linear RL. However, many
supervised and unsupervised RL problems are not covered in the Linear RL
framework, such as apprenticeship learning, pure exploration and variational
intrinsic control, where the objectives are non-linear functions of the
occupancy measures. RL with non-linear utilities looks unwieldy, as methods
like Bellman equation, value iteration, policy gradient, dynamic programming
that had tremendous success in Linear RL, fail to trivially generalize. In this
paper, we derive the policy gradient theorem for RL with general utilities. The
policy gradient theorem proves to be a cornerstone in Linear RL due to its
elegance and ease of implementability. Our policy gradient theorem for RL with
general utilities shares the same elegance and ease of implementability. Based
on the policy gradient theorem derived, we also present a simple sample-based
algorithm. We believe our results will be of interest to the community and
offer inspiration to future works in this generalized setting.
- Abstract(参考訳): 強化学習(rl)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
この目的はまた、その状態-作用占有度尺度の線形関数を最適化するポリシー(以下、線形RL)を見いだすことができる。
しかしながら、多くの教師付きrl問題や教師なしrl問題は、見習い学習、純粋な探索、変動的本質制御といった、占有測度の非線形関数である線形rlフレームワークにはカバーされていない。
線形効用を持たないRLは、ベルマン方程式、値反復、ポリシー勾配、リニアRLで驚くほど成功した動的プログラミングのようなメソッドは、自明に一般化できないため、扱いにくいように見える。
本稿では,一般ユーティリティを用いたRLのポリシー勾配定理を導出する。
ポリシー勾配定理は、そのエレガンスさと実装容易性から、線形RLの基盤であることが証明されている。
RLと一般ユーティリティのポリシー勾配定理は同じエレガンスと実装容易性を共有している。
また,ポリシー勾配定理を導出し,簡単なサンプルベースアルゴリズムを提案する。
私たちの結果はコミュニティにとって興味深く、この一般的な環境での将来の作品にインスピレーションを与えてくれると思います。
関連論文リスト
- Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。
数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。
政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T15:45:39Z) - ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared
State Representation and Individual Policy Representation [31.9768280877473]
2次元状態表現と政策表現を用いた進化的強化学習(ERL-Re$2$)を提案する。
すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら、同じ非線形状態表現を共有している。
一連の連続制御タスクの実験では、ERL-Re$2$は、高度ベースラインを一貫して上回り、最先端アート(SOTA)を達成する。
論文 参考訳(メタデータ) (2022-10-26T10:34:48Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。