Fugu-MT 論文翻訳(概要): C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory

論文の概要: C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory

arxiv url: http://arxiv.org/abs/2402.16349v2
Date: Tue, 29 Oct 2024 03:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.020677
Title: C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory
Title（参考訳）: C-GAIL:制御理論による生成的対向模倣学習の安定化
Authors: Tianjiao Luo, Tim Pearce, Huayu Chen, Jianfei Chen, Jun Zhu,
Abstract要約: GAIL(Generative Adversarial Learning)は、デモンストレーターを模倣する生成ポリシーを訓練する。オンラインImitation Reinforcement Learning (RL) を用いて、GANライクな識別器から得られる報酬信号を最適化する。近年の研究では、制御理論がガンの訓練の収束に役立つことが示されている。
参考スコア（独自算出の注目度）: 20.38647732528661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative Adversarial Imitation Learning (GAIL) trains a generative policy to mimic a demonstrator. It uses on-policy Reinforcement Learning (RL) to optimize a reward signal derived from a GAN-like discriminator. A major drawback of GAIL is its training instability - it inherits the complex training dynamics of GANs, and the distribution shift introduced by RL. This can cause oscillations during training, harming its sample efficiency and final policy performance. Recent work has shown that control theory can help with the convergence of a GAN's training. This paper extends this line of work, conducting a control-theoretic analysis of GAIL and deriving a novel controller that not only pushes GAIL to the desired equilibrium but also achieves asymptotic stability in a 'one-step' setting. Based on this, we propose a practical algorithm 'Controlled-GAIL' (C-GAIL). On MuJoCo tasks, our controlled variant is able to speed up the rate of convergence, reduce the range of oscillation and match the expert's distribution more closely both for vanilla GAIL and GAIL-DAC.
Abstract（参考訳）: GAIL(Generative Adversarial Imitation Learning)は、デモを模倣する生成ポリシーを訓練する。オンライン強化学習(RL)を用いて、GANライクな識別器から派生した報酬信号を最適化する。 GAILの大きな欠点は、そのトレーニング不安定性である。GAILは、GANの複雑なトレーニングダイナミクスと、RLによって導入された分散シフトを継承する。これはトレーニング中に振動を引き起こし、サンプル効率と最終的なポリシー性能を損なう可能性がある。近年の研究では、制御理論がガンの訓練の収束に役立つことが示されている。本稿では、GAILの制御理論解析を行い、GAILを所望の平衡にプッシュするだけでなく、「ワンステップ」設定で漸近安定性を実現する新しい制御系を導出する。そこで本研究では,C-GAIL (Controlled-GAIL) の実用的なアルゴリズムを提案する。 MuJoCoタスクでは、制御された変数が収束速度を高速化し、振動範囲を小さくし、バニラGAILとGAIL-DACの両方に対して専門家の分布をより密に一致させることができる。

関連論文リスト

Comparing Behavioural Cloning and Reinforcement Learning for Spacecraft Guidance and Control Networks [4.868863044142366]
誘導制御ネットワーク(G&CNET)は、宇宙船の誘導制御(G&C)アーキテクチャに代わる有望な代替手段を提供する。 G&CNETのトレーニングでは、最適な軌道を模倣する行動クローニング(BC)と、試行錯誤を通じて最適な行動を学ぶ強化学習(RL)の2つの主要なパラダイムが出現する。我々は、連続スラスト宇宙船軌道最適化タスクにおいて、特にG&CNETを訓練するために、BCとRLを体系的に評価する。我々は、G&CNETに適した新しいRLトレーニングフレームワークを導入し、報酬とともに分離されたアクションと制御周波数を取り入れた。
論文参考訳（メタデータ） (2025-07-22T07:43:38Z)
Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Exploring Gradient Explosion in Generative Adversarial Imitation Learning: A Probabilistic Perspective [22.267502760766398]
GAIL(Generative Adversarial Learning)は、模倣学習における基礎的なアプローチである。本稿では, GAIL と GAIL の 2 種類の勾配爆発について検討する。
論文参考訳（メタデータ） (2023-12-18T14:04:51Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Controlled Descent Training [0.0]
最適制御理論により,新しいモデルベースニューラルネットワーク(ANN)トレーニング手法を開発した。この方法は、トレーニング損失収束を確実に保証し、トレーニング収束率を向上させるために、トレーニングラベルを増強する。本手法の適用性は, 標準回帰問題と分類問題において実証される。
論文参考訳（メタデータ） (2023-03-16T10:45:24Z)
Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-19T05:55:02Z)
Parallelized Reverse Curriculum Generation [62.25453821794469]
強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
論文参考訳（メタデータ） (2021-08-04T15:58:35Z)
Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文参考訳（メタデータ） (2021-01-20T11:23:35Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文参考訳（メタデータ） (2020-07-17T21:50:35Z)
Stabilizing Training of Generative Adversarial Nets via Langevin Stein Variational Gradient Descent [11.329376606876101]
我々は,新しい粒子に基づく変分推論(LSVGD)によるGANトレーニングの安定化を提案する。 LSVGDのダイナミクスは暗黙の規則化を持ち、粒子の広がりと多様性を高めることができることを示す。
論文参考訳（メタデータ） (2020-04-22T11:20:04Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)
On Computation and Generalization of Generative Adversarial Imitation Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。本稿ではGAILの理論的性質について考察する。
論文参考訳（メタデータ） (2020-01-09T00:40:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。