論文の概要: Learning Dynamics and Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.02126v1
- Date: Sun, 5 Jun 2022 08:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 09:17:56.586445
- Title: Learning Dynamics and Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における学習ダイナミクスと一般化
- Authors: Clare Lyle, Mark Rowland, Will Dabney, Marta Kwiatkowska, Yarin Gal
- Abstract要約: 時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
- 参考スコア(独自算出の注目度): 59.530058000689884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving a reinforcement learning (RL) problem poses two competing challenges:
fitting a potentially discontinuous value function, and generalizing well to
new observations. In this paper, we analyze the learning dynamics of temporal
difference algorithms to gain novel insight into the tension between these two
objectives. We show theoretically that temporal difference learning encourages
agents to fit non-smooth components of the value function early in training,
and at the same time induces the second-order effect of discouraging
generalization. We corroborate these findings in deep RL agents trained on a
range of environments, finding that neural networks trained using temporal
difference algorithms on dense reward tasks exhibit weaker generalization
between states than randomly initialized networks and networks trained with
policy gradient methods. Finally, we investigate how post-training policy
distillation may avoid this pitfall, and show that this approach improves
generalization to novel environments in the ProcGen suite and improves
robustness to input perturbations.
- Abstract(参考訳): 強化学習(RL)問題を解くことは、潜在的に不連続な値関数を適合させ、新しい観測にうまく一般化する、2つの競合する課題をもたらす。
本稿では,時間差アルゴリズムの学習力学を解析し,この2つの目的間の緊張について新たな知見を得る。
理論的には, 時間差学習は, 学習初期における価値関数の非スムース成分の適合を促進させると同時に, 分散一般化の2次効果を誘導する。
我々は,これらの知見を,様々な環境において訓練された深層rlエージェントに裏付ける。高密度報酬タスクにおいて時間差アルゴリズムを用いて訓練されたニューラルネットワークは,ランダムに初期化されたネットワークやポリシー勾配法で訓練されたネットワークよりも,状態間の一般化が弱いことを見出した。
最後に, 学習後の蒸留がこの落とし穴をいかに回避できるかを調査し, このアプローチがプロクジェンスイートの新規環境への一般化を改善し, 入力摂動に対する頑健性を向上させることを示す。
関連論文リスト
- A Dual-Agent Adversarial Framework for Robust Generalization in Deep Reinforcement Learning [7.923577336744156]
両エージェント対応型政策学習フレームワークを提案する。
このフレームワークは、エージェントが人間の事前知識を導入することなく、基礎となるセマンティクスを自発的に学習することを可能にする。
実験により, 両エージェントの一般化性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2025-01-29T02:36:47Z) - Compositional Curvature Bounds for Deep Neural Networks [7.373617024876726]
安全クリティカルなアプリケーションにおけるニューラルネットワークの普及を脅かす重要な課題は、敵の攻撃に対する脆弱性である。
本研究では, 連続的に微分可能な深層ニューラルネットワークの2次挙動について検討し, 対向摂動に対する堅牢性に着目した。
ニューラルネットワークの第2微分の証明可能な上界を解析的に計算する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-07T17:50:15Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。