論文の概要: Predictive PER: Balancing Priority and Diversity towards Stable Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.13093v1
- Date: Thu, 26 Nov 2020 02:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:20:42.118548
- Title: Predictive PER: Balancing Priority and Diversity towards Stable Deep
Reinforcement Learning
- Title(参考訳): 安定型深層強化学習への優先順位と多様性のバランス
- Authors: Sanghwa Lee, Jaeyoung Lee, Ichiro Hasuo
- Abstract要約: 優先度付き体験再生(PER)は、深層強化学習エージェントの性能を向上させるために、一様ではなく重要な遷移をサンプリングする。
PER(Predictive PER, 予測PER)に対する改善策として, (i) 優先的な外れ値と爆発を除去し, (ii) サンプルの多様性と分布を改善するために3つの対策を講じた。
アタリゲームによる実験では、それぞれの対策が独自に行われ、PPERは安定性の向上に寄与し、PERよりも性能が向上した。
- 参考スコア(独自算出の注目度): 6.0910968435668575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prioritized experience replay (PER) samples important transitions, rather
than uniformly, to improve the performance of a deep reinforcement learning
agent. We claim that such prioritization has to be balanced with sample
diversity for making the DQN stabilized and preventing forgetting. Our proposed
improvement over PER, called Predictive PER (PPER), takes three countermeasures
(TDInit, TDClip, TDPred) to (i) eliminate priority outliers and explosions and
(ii) improve the sample diversity and distributions, weighted by priorities,
both leading to stabilizing the DQN. The most notable among the three is the
introduction of the second DNN called TDPred to generalize the in-distribution
priorities. Ablation study and full experiments with Atari games show that each
countermeasure by its own way and PPER contribute to successfully enhancing
stability and thus performance over PER.
- Abstract(参考訳): 優先体験再生(PER)は、深層強化学習エージェントの性能を向上させるために、一様ではなく重要な遷移をサンプリングする。
このような優先順位付けはdqnを安定化させ、忘れないようにするためにサンプルの多様性とバランスをとる必要があると主張している。
PER(Predictive PER, 予測PER)に対する改善策として, 3つの対策(TDInit, TDClip, TDPred)が提案されている。
一 優先外れ及び爆発を除去すること。
(II) DQNを安定化させるため, 標本の多様性と分布を優先的に改善する。
3つの中で最も重要なのは、流通の優先順位を一般化する第2のDNNであるTDPredの導入である。
アブレーション研究とアタリゲームによる完全な実験により、それぞれの対策を独自に行い、PPERは安定性の向上に寄与し、PERよりも性能が向上することを示した。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Stable Language Model Pre-training by Reducing Embedding Variability [29.698610741413045]
言語モデルの事前学習安定性を評価するためのプロキシとして,Token Embedding Variability(TEV)について検討する。
また,このような不安定性を緩和するアーキテクチャとして,MLRA(Multi-head Low-Rank Attention)を提案する。
MLRAを用いたGPT-2実験の結果,特に深部モデルでは安定性が向上し,パープレキシティが低下した。
論文 参考訳(メタデータ) (2024-09-12T06:37:46Z) - Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learning [0.0]
人口ベーストレーニング(PBT)は、トレーニング全体を通してハイパーパラメータを継続的にチューニングすることで、これを実現する方法を提供する。
本稿では,単一個体群内における第1次と第2次の両方を同時に活用することにより,PBTの強化を提案する。
論文 参考訳(メタデータ) (2024-08-27T21:54:26Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Attention Loss Adjusted Prioritized Experience Replay [0.0]
優先再生体験(PER)は、ニューラルネットワークのトレーニング率を改善するために、より知識量の多い経験サンプルを選択することによって、深層強化学習の技術的手段である。
PERで使用される非一様サンプリングは、状態-作用空間分布を必然的にシフトさせ、Q値関数の推定誤差をもたらす。
改良された自己認識ネットワークとダブルサンプリング機構を統合したALAP体験再生アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:49:32Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning [134.15174177472807]
対戦型トレーニングを自己超越に導入し,汎用的な頑健な事前訓練モデルを初めて提供する。
提案するフレームワークが大きなパフォーマンスマージンを達成できることを示すため,広範な実験を行う。
論文 参考訳(メタデータ) (2020-03-28T18:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。