論文の概要: Exploring Gradient Explosion in Generative Adversarial Imitation
Learning: A Probabilistic Perspective
- arxiv url: http://arxiv.org/abs/2312.11214v1
- Date: Mon, 18 Dec 2023 14:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:55:14.285101
- Title: Exploring Gradient Explosion in Generative Adversarial Imitation
Learning: A Probabilistic Perspective
- Title(参考訳): 生成的adversarial imitation learningにおける勾配爆発の探索:確率論的展望
- Authors: Wanying Wang, Yichen Zhu, Yirui Zhou, Chaomin Shen, Jian Tang, Zhiyuan
Xu, Yaxin Peng, Yangchun Zhang
- Abstract要約: GAIL(Generative Adversarial Learning)は、模倣学習における基礎的なアプローチである。
本稿では, GAIL と GAIL の 2 種類の勾配爆発について検討する。
- 参考スコア(独自算出の注目度): 22.267502760766398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Adversarial Imitation Learning (GAIL) stands as a cornerstone
approach in imitation learning. This paper investigates the gradient explosion
in two types of GAIL: GAIL with deterministic policy (DE-GAIL) and GAIL with
stochastic policy (ST-GAIL). We begin with the observation that the training
can be highly unstable for DE-GAIL at the beginning of the training phase and
end up divergence. Conversely, the ST-GAIL training trajectory remains
consistent, reliably converging. To shed light on these disparities, we provide
an explanation from a theoretical perspective. By establishing a probabilistic
lower bound for GAIL, we demonstrate that gradient explosion is an inevitable
outcome for DE-GAIL due to occasionally large expert-imitator policy disparity,
whereas ST-GAIL does not have the issue with it. To substantiate our assertion,
we illustrate how modifications in the reward function can mitigate the
gradient explosion challenge. Finally, we propose CREDO, a simple yet effective
strategy that clips the reward function during the training phase, allowing the
GAIL to enjoy high data efficiency and stable trainability.
- Abstract(参考訳): GAIL(Generative Adversarial Imitation Learning)は、模倣学習における基礎的なアプローチである。
本稿では,2種類のゲイルにおける勾配爆発について検討する。ゲイルは決定論的政策(デゲイル),ゲイルは確率的政策(ストゲイル)である。
まず,トレーニングの開始時に,脱ゲールに対して高度に不安定なトレーニングを行い,最終的に発散する観察から始める。
逆にST-GAIL訓練軌道は一貫しており、確実に収束している。
これらの相違に光を当てるために、理論的観点から説明を与える。
GAILの確率的下限を確立することで,ST-GAILに問題があるのに対して,時折大きな専門家・イミテータ政策の相違により,勾配爆発がDE-GAILにとって避けられない結果であることを示す。
我々の主張を裏付けるために、報酬関数の修正が勾配爆発を緩和する方法について説明する。
最後に,トレーニング期間中に報酬関数をカットし,GAILが高いデータ効率と安定したトレーニング性を享受できる簡易かつ効果的な戦略であるCREDOを提案する。
関連論文リスト
- Diffusion-Reward Adversarial Imitation Learning [33.81857550294019]
シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、対人学習として模倣学習を定式化する。
本稿では拡散モデルとGAILを融合した拡散逆適応学習(DRAIL)を提案する。
論文 参考訳(メタデータ) (2024-05-25T11:53:23Z) - C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory [20.38647732528661]
GAIL(Generative Adversarial Learning)は、デモンストレーターを模倣する生成ポリシーを訓練する。
オンラインImitation Reinforcement Learning (RL) を用いて、GANライクな識別器から得られる報酬信号を最適化する。
近年の研究では、制御理論がガンの訓練の収束に役立つことが示されている。
論文 参考訳(メタデータ) (2024-02-26T07:07:00Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Model-Aware Contrastive Learning: Towards Escaping the Dilemmas [11.27589489269041]
コントラスト学習(CL)は、複数の領域にわたる重要なブレークスルーを継続的に達成する。
InfoNCEベースの手法は、テクスチュニフォーム・トレランス・ジレンマ(UTD)やテクスチュイディグレート・リダクション(UTD)など、いくつかのジレンマに悩まされている。
本稿では,インスタンス識別タスクの基本的な信頼性を反映したアライメントの程度に温度が適応するモデル認識コントラスト学習(MACL)戦略を提案する。
論文 参考訳(メタデータ) (2022-07-16T08:21:55Z) - SS-MAIL: Self-Supervised Multi-Agent Imitation Learning [18.283839252425803]
アルゴリズムの2つのファミリー - 行動クローン(BC)と敵対的模倣学習(AIL)-
BCアプローチは、軌道生成問題のシーケンシャルな決定性を無視しているため、複雑なエラーに悩まされる。
AILメソッドは、トレーニングダイナミクスの不安定さに悩まされている。
我々は、よりリッチな報酬関数を近似するように差別者を奨励する、新たな自己監督的損失を導入する。
論文 参考訳(メタデータ) (2021-10-18T01:17:50Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。