論文の概要: On Computation and Generalization of Generative Adversarial Imitation
Learning
- arxiv url: http://arxiv.org/abs/2001.02792v2
- Date: Sun, 12 Jan 2020 03:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:21:45.764770
- Title: On Computation and Generalization of Generative Adversarial Imitation
Learning
- Title(参考訳): 生成的逆模倣学習の計算と一般化について
- Authors: Minshuo Chen, Yizhou Wang, Tianyi Liu, Zhuoran Yang, Xingguo Li,
Zhaoran Wang, Tuo Zhao
- Abstract要約: GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
- 参考スコア(独自算出の注目度): 134.17122587138897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Imitation Learning (GAIL) is a powerful and practical
approach for learning sequential decision-making policies. Different from
Reinforcement Learning (RL), GAIL takes advantage of demonstration data by
experts (e.g., human), and learns both the policy and reward function of the
unknown environment. Despite the significant empirical progresses, the theory
behind GAIL is still largely unknown. The major difficulty comes from the
underlying temporal dependency of the demonstration data and the minimax
computational formulation of GAIL without convex-concave structure. To bridge
such a gap between theory and practice, this paper investigates the theoretical
properties of GAIL. Specifically, we show: (1) For GAIL with general reward
parameterization, the generalization can be guaranteed as long as the class of
the reward functions is properly controlled; (2) For GAIL, where the reward is
parameterized as a reproducing kernel function, GAIL can be efficiently solved
by stochastic first order optimization algorithms, which attain sublinear
convergence to a stationary solution. To the best of our knowledge, these are
the first results on statistical and computational guarantees of imitation
learning with reward/policy function approximation. Numerical experiments are
provided to support our analysis.
- Abstract(参考訳): GAIL(Generative Adversarial Imitation Learning)は、シーケンシャルな意思決定ポリシーを学ぶための強力で実践的なアプローチである。
強化学習(RL)とは異なり、GAILは専門家(例えば人間)による実証データを活用し、未知の環境のポリシーと報酬関数の両方を学ぶ。
顕著な経験的進歩にもかかわらず、GAILの背後にある理論はほとんど不明である。
主な困難は、デモデータの根底にある時間依存性と、凸凹構造を持たないGAILの最小計算定式化である。
このような理論と実践のギャップを埋めるため,ガイルの理論的性質を考察する。
具体的には,(1)報奨関数のクラスが適切に制御される限り,GAILに対して一般化を保証すること,(2)報奨関数が再生カーネル関数としてパラメータ化されるGAILに対して,GAILを確率的一階最適化アルゴリズムにより効率よく解き、定常解へのサブ線形収束を実現すること,を示す。
我々の知る限り、これらは報酬/政治機能近似による模倣学習の統計的および計算的保証に関する最初の結果である。
解析を支援するために数値実験を行った。
関連論文リスト
- Provably and Practically Efficient Adversarial Imitation Learning with General Function Approximation [13.228240527941619]
最適化ベースAIL(OPT-AIL)と呼ばれる新しい手法を提案する。
OPT-AILは一般関数近似を用いた最初の証明可能なAIL法である。
実証的研究により、OPT-AILはいくつかの課題において、従来の最先端の深層AIL法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-01T14:17:38Z) - Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。
理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - Augmenting GAIL with BC for sample efficient imitation learning [5.199454801210509]
本稿では,行動クローニングとGAILを組み合わせた簡易かつエレガントな手法を提案する。
我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。
本稿では,低次元制御タスク,グリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2020-01-21T22:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。