論文の概要: When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence
- arxiv url: http://arxiv.org/abs/2006.13506v2
- Date: Thu, 25 Jun 2020 03:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:13:54.075813
- Title: When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence
- Title(参考訳): 生成的逆模倣学習アルゴリズムがグローバル収束を達成するのはいつか
- Authors: Ziwei Guan, Tengyu Xu and Yingbin Liang
- Abstract要約: 我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
- 参考スコア(独自算出の注目度): 56.40794592158596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial imitation learning (GAIL) is a popular inverse
reinforcement learning approach for jointly optimizing policy and reward from
expert trajectories. A primary question about GAIL is whether applying a
certain policy gradient algorithm to GAIL attains a global minimizer (i.e.,
yields the expert policy), for which existing understanding is very limited.
Such global convergence has been shown only for the linear (or linear-type) MDP
and linear (or linearizable) reward. In this paper, we study GAIL under general
MDP and for nonlinear reward function classes (as long as the objective
function is strongly concave with respect to the reward parameter). We
characterize the global convergence with a sublinear rate for a broad range of
commonly used policy gradient algorithms, all of which are implemented in an
alternating manner with stochastic gradient ascent for reward update, including
projected policy gradient (PPG)-GAIL, Frank-Wolfe policy gradient (FWPG)-GAIL,
trust region policy optimization (TRPO)-GAIL and natural policy gradient
(NPG)-GAIL. This is the first systematic theoretical study of GAIL for global
convergence.
- Abstract(参考訳): GAIL(Generative Adversarial mimicion Learning)は、専門家の軌道から政策と報酬を共同で最適化するための逆強化学習手法として人気がある。
GAILに関する主要な問題は、あるポリシー勾配アルゴリズムをGAILに適用することで、既存の理解が極めて限定された世界最小化(すなわち、専門家のポリシーを得る)が達成できるかどうかである。
このような大域収束は線型(または線型型) MDP と線型(または線形化可能)報酬に対してのみ示される。
本稿では,GAIL を一般 MDP と非線形報酬関数クラス(目的関数が報酬パラメータに関して強く絡み合っている限り)で検討する。
本稿では,広範に使用される政策勾配アルゴリズムのサブリニアレートによるグローバル収束を特徴付け,これらはすべて,予測政策勾配(PPG)-GAIL,フランク・ウルフ政策勾配(FWPG)-GAIL,信頼地域政策最適化(TRPO)-GAIL,自然政策勾配(NPG)-GAILなど,報奨更新のための確率勾配と交互に実施されている。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
関連論文リスト
- Global Convergence of Policy Gradient Methods in Reinforcement Learning,
Games and Control [38.10940311690513]
政策勾配法は、強化学習、ゲーム、制御におけるシーケンシャルな意思決定にますます人気がある。
ポリシー勾配法の大域的最適性を保証することは、値関数の非凹凸のため、非常に非自明である。
論文 参考訳(メタデータ) (2023-10-08T16:54:25Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。