論文の概要: Investigating the Interplay of Prioritized Replay and Generalization
- arxiv url: http://arxiv.org/abs/2407.09702v1
- Date: Fri, 12 Jul 2024 21:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:18:20.392426
- Title: Investigating the Interplay of Prioritized Replay and Generalization
- Title(参考訳): 優先順位付けされたリプレイと一般化の相互作用の検討
- Authors: Parham Mohammad Panahi, Andrew Patterson, Martha White, Adam White,
- Abstract要約: 過去のデータを再利用し、サンプル効率を向上させるため、強化学習では、経験の再生は至るところで行われている。
1つの例外は優先順位付き体験再生(PER)であり、サンプリングはTDエラーに比例して行われる。
我々はPERの様々なバリエーションを調査し、PERがいつ役に立つかを理解する。
- 参考スコア(独自算出の注目度): 23.248982121562985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience replay is ubiquitous in reinforcement learning, to reuse past data and improve sample efficiency. Though a variety of smart sampling schemes have been introduced to improve performance, uniform sampling by far remains the most common approach. One exception is Prioritized Experience Replay (PER), where sampling is done proportionally to TD errors, inspired by the success of prioritized sweeping in dynamic programming. The original work on PER showed improvements in Atari, but follow-up results are mixed. In this paper, we investigate several variations on PER, to attempt to understand where and when PER may be useful. Our findings in prediction tasks reveal that while PER can improve value propagation in tabular settings, behavior is significantly different when combined with neural networks. Certain mitigations -- like delaying target network updates to control generalization and using estimates of expected TD errors in PER to avoid chasing stochasticity -- can avoid large spikes in error with PER and neural networks, but nonetheless generally do not outperform uniform replay. In control tasks, none of the prioritized variants consistently outperform uniform replay.
- Abstract(参考訳): 過去のデータを再利用し、サンプル効率を向上させるため、強化学習では、経験の再生は至るところで行われている。
性能向上のために様々なスマートサンプリングスキームが導入されたが、今までのところ、一様サンプリングが最も一般的なアプローチである。
1つの例外は優先順位付き体験再生(PER)であり、サンプリングは動的プログラミングにおける優先順位付きスイーピングの成功にインスパイアされたTDエラーに比例して行われる。
PERの当初の作業では、Atariの改善が見られたが、その後の結果はさまざまだ。
本稿ではPERの様々なバリエーションについて検討し、PERがいつ役に立つかを理解する。
予測タスクでは,PERは表の設定で値の伝搬を改善することができるが,ニューラルネットワークと組み合わせた場合の挙動は著しく異なる。
一般化を制御するためにターゲットネットワークのアップデートを遅らせたり、確率性を追跡するためにPERで期待されるTDエラーの見積を使用するなど、ある種の緩和は、PERやニューラルネットワークによるエラーの大規模なスパイクを回避することができるが、それでも一般的には、均一なリプレイよりも優れていない。
制御タスクでは、優先順位付けされたどの変種も一貫して均一なリプレイを上回っていない。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - ROER: Regularized Optimal Experience Replay [34.462315999611256]
優先経験リプレイ(PER)は、時間差(TD)誤差によって経験を過度に再現する。
経験優先化と占有最適化の関連性を示す。
正規化された最適体験再生(ROER)は、難易度の高いAntmaze環境において顕著な改善を実現する。
論文 参考訳(メタデータ) (2024-07-04T15:14:57Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Consistency is the key to further mitigating catastrophic forgetting in
continual learning [14.674494335647841]
Experience Replay (ER) は低バッファ状態と長いタスクシーケンスではうまく動作しない。
ソフトターゲットの予測における一貫性は、ERが以前のタスクに関連する情報を保存するのに役立つ。
自己教師付きプレテキストタスクとして整合性正規化をキャストすることを提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:49Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Test-time Batch Normalization [61.292862024903584]
ディープニューラルネットワークは、トレーニングとテストの間のデータ分散シフトに悩まされることが多い。
トレーニングプロセスにおけるバッチ正規化(BN)を再検討し、テスト時の最適化に有効な2つの重要な洞察を明らかにします。
本稿では,エントロピー損失を最小限に抑えて,テスト中に最適化された新しいBN層設計GpreBNを提案する。
論文 参考訳(メタデータ) (2022-05-20T14:33:39Z) - Lost in Pruning: The Effects of Pruning Neural Networks beyond Test
Accuracy [42.15969584135412]
ニューラルネットワークプルーニングは、現代のネットワークの推論コストを削減するために使用される一般的な技術です。
試験精度のみを終了条件で使用するだけで、結果のモデルが正常に機能するかどうかを評価します。
刈り取られたネットワークは、効果的に未刈り込みモデルに近似するが、刈り取られたネットワークがコンメンシュレートのパフォーマンスを達成できるプルー比はタスクによって大きく異なる。
論文 参考訳(メタデータ) (2021-03-04T13:22:16Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。