論文の概要: C-GAIL: Stabilizing Generative Adversarial Imitation Learning with
Control Theory
- arxiv url: http://arxiv.org/abs/2402.16349v1
- Date: Mon, 26 Feb 2024 07:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:25:25.018935
- Title: C-GAIL: Stabilizing Generative Adversarial Imitation Learning with
Control Theory
- Title(参考訳): C-GAIL:制御理論による生成的対向模倣学習の安定化
- Authors: Tianjiao Luo, Tim Pearce, Huayu Chen, Jianfei Chen, Jun Zhu
- Abstract要約: GAIL(Generative Adversarial Learning)は、デモンストレーターを模倣する生成ポリシーを訓練する。
オンラインImitation Reinforcement Learning (RL) を用いて、GANライクな識別器から得られる報酬信号を最適化する。
近年の研究では、制御理論がガンの訓練の収束に役立つことが示されている。
- 参考スコア(独自算出の注目度): 21.871549717060645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Imitation Learning (GAIL) trains a generative policy
to mimic a demonstrator. It uses on-policy Reinforcement Learning (RL) to
optimize a reward signal derived from a GAN-like discriminator. A major
drawback of GAIL is its training instability - it inherits the complex training
dynamics of GANs, and the distribution shift introduced by RL. This can cause
oscillations during training, harming its sample efficiency and final policy
performance. Recent work has shown that control theory can help with the
convergence of a GAN's training. This paper extends this line of work,
conducting a control-theoretic analysis of GAIL and deriving a novel controller
that not only pushes GAIL to the desired equilibrium but also achieves
asymptotic stability in a 'one-step' setting. Based on this, we propose a
practical algorithm 'Controlled-GAIL' (C-GAIL). On MuJoCo tasks, our controlled
variant is able to speed up the rate of convergence, reduce the range of
oscillation and match the expert's distribution more closely both for vanilla
GAIL and GAIL-DAC.
- Abstract(参考訳): GAIL(Generative Adversarial Imitation Learning)は、デモを模倣する生成ポリシーを訓練する。
オンライン強化学習(RL)を用いて、GANのような識別器から得られる報酬信号を最適化する。
gailの大きな欠点はトレーニング不安定であり、ganの複雑なトレーニングダイナミクスとrlによって導入された分散シフトを継承している。
これはトレーニング中に振動を引き起こし、サンプル効率と最終的なポリシー性能を損なう可能性がある。
近年の研究では、制御理論がガンの訓練の収束に役立つことが示されている。
本稿では,gailの制御理論解析を行い,gailを所望の平衡まで押し上げるだけでなく,"ワンステップ"の設定で漸近安定性を実現する新しい制御器を導出する。
そこで本研究では,C-GAIL(Controlled-GAIL)を提案する。
MuJoCoタスクでは、制御された変数が収束速度を高速化し、振動範囲を小さくし、バニラGAILとGAIL-DACの両方に対して専門家の分布をより密に一致させることができる。
関連論文リスト
- Exploring Gradient Explosion in Generative Adversarial Imitation
Learning: A Probabilistic Perspective [22.267502760766398]
GAIL(Generative Adversarial Learning)は、模倣学習における基礎的なアプローチである。
本稿では, GAIL と GAIL の 2 種類の勾配爆発について検討する。
論文 参考訳(メタデータ) (2023-12-18T14:04:51Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Controlled Descent Training [0.0]
最適制御理論により,新しいモデルベースニューラルネットワーク(ANN)トレーニング手法を開発した。
この方法は、トレーニング損失収束を確実に保証し、トレーニング収束率を向上させるために、トレーニングラベルを増強する。
本手法の適用性は, 標準回帰問題と分類問題において実証される。
論文 参考訳(メタデータ) (2023-03-16T10:45:24Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Parallelized Reverse Curriculum Generation [62.25453821794469]
強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。
逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。
本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T15:58:35Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Stabilizing Training of Generative Adversarial Nets via Langevin Stein
Variational Gradient Descent [11.329376606876101]
我々は,新しい粒子に基づく変分推論(LSVGD)によるGANトレーニングの安定化を提案する。
LSVGDのダイナミクスは暗黙の規則化を持ち、粒子の広がりと多様性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-22T11:20:04Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。