論文の概要: Consistent Dropout for Policy Gradient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.11818v1
- Date: Wed, 23 Feb 2022 23:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 07:45:36.431442
- Title: Consistent Dropout for Policy Gradient Reinforcement Learning
- Title(参考訳): 政策勾配強化学習のための一貫したドロップアウト
- Authors: Matthew Hausknecht and Nolan Wagener
- Abstract要約: ドロップアウトは長い間教師あり学習の基礎であったが、強化学習にはほとんど使われていない。
連続的な動作環境と離散的な動作環境の両方において、一貫したドロップアウトにより、A2CとPPOによる安定したトレーニングが可能になることを実証する。
一貫性のあるドロップアウトは、モデルのネイティブドロップアウトを無効にすることなく、GPTのような複雑なアーキテクチャのオンライントレーニングを可能にすることを示す。
- 参考スコア(独自算出の注目度): 2.7340142673783507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dropout has long been a staple of supervised learning, but is rarely used in
reinforcement learning. We analyze why naive application of dropout is
problematic for policy-gradient learning algorithms and introduce consistent
dropout, a simple technique to address this instability. We demonstrate
consistent dropout enables stable training with A2C and PPO in both continuous
and discrete action environments across a wide range of dropout probabilities.
Finally, we show that consistent dropout enables the online training of complex
architectures such as GPT without needing to disable the model's native
dropout.
- Abstract(参考訳): dropoutは長年、教師付き学習の主力だったが、強化学習ではめったに使われない。
政策段階の学習アルゴリズムでは、ドロップアウトのナイーブな応用が問題となる理由を分析し、この不安定性に対処するシンプルな手法である一貫性のあるドロップアウトを導入する。
我々は,a2c と ppo を用いて,幅広いドロップアウト確率の連続的および離散的動作環境において安定したトレーニングを実現することを実証した。
最後に、一貫したドロップアウトにより、モデルのネイティブドロップアウトを無効にすることなく、GPTなどの複雑なアーキテクチャのオンライントレーニングが可能になることを示す。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Revisiting Structured Dropout [11.011268090482577]
textbfemphProbDropBlockは、正規化されたフィーチャーサリエンス値によって与えられる確率で、特徴マップから連続したブロックをドロップする。
単純なスケジューリング戦略では,ベースラインよりもモデル性能が一貫して向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-05T21:26:57Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。