論文の概要: Event Tables for Efficient Experience Replay
- arxiv url: http://arxiv.org/abs/2211.00576v2
- Date: Fri, 21 Apr 2023 11:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 18:00:21.888531
- Title: Event Tables for Efficient Experience Replay
- Title(参考訳): 効率的な体験リプレイのためのイベントテーブル
- Authors: Varun Kompella, Thomas J. Walsh, Samuel Barrett, Peter Wurman, Peter
Stone
- Abstract要約: 経験リプレイ(ER)は多くの深層強化学習(RL)システムにおいて重要な要素である。
ERバッファからの一様サンプリングは、収束が遅く不安定な振る舞いを引き起こす可能性がある。
本稿では,ERバッファをイベントテーブルに分割するStratified Smpling from Event Tables (SSET)を紹介する。
- 参考スコア(独自算出の注目度): 31.678826875509348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience replay (ER) is a crucial component of many deep reinforcement
learning (RL) systems. However, uniform sampling from an ER buffer can lead to
slow convergence and unstable asymptotic behaviors. This paper introduces
Stratified Sampling from Event Tables (SSET), which partitions an ER buffer
into Event Tables, each capturing important subsequences of optimal behavior.
We prove a theoretical advantage over the traditional monolithic buffer
approach and combine SSET with an existing prioritized sampling strategy to
further improve learning speed and stability. Empirical results in challenging
MiniGrid domains, benchmark RL environments, and a high-fidelity car racing
simulator demonstrate the advantages and versatility of SSET over existing ER
buffer sampling approaches.
- Abstract(参考訳): experience replay(er)は、多くの深層強化学習(rl)システムの重要なコンポーネントである。
しかし、ERバッファからの均一サンプリングは、緩やかな収束と不安定な漸近的な振る舞いを引き起こす可能性がある。
本稿では,erバッファをイベントテーブルに分割するイベントテーブル(sset)からの階層化サンプリングについて述べる。
従来のモノリシックバッファアプローチに対する理論的優位性を証明し、SSETと既存の優先サンプリング戦略を組み合わせることにより、学習速度と安定性をさらに向上する。
MiniGridドメイン、ベンチマークRL環境、高忠実度カーレースシミュレータの試行の結果は、既存のERバッファサンプリング手法よりもSSETの利点と汎用性を実証している。
関連論文リスト
- A Multi-Granularity Supervised Contrastive Framework for Remaining Useful Life Prediction of Aero-engines [2.0752500632458983]
本稿では,多粒度教師付きコントラスト(MGSC)フレームワークを直感から開発する。
これは実装において、あまりに大きなミニバッチサイズとアンバランスなサンプルの問題に対処する。
また、シンプルでスケーラブルな基本ネットワーク構造を示し、CMPASSデータセット上で提案されたMGSC戦略を検証する。
論文 参考訳(メタデータ) (2024-11-01T09:18:38Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement
Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。
本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:04:00Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Neighborhood Mixup Experience Replay: Local Convex Interpolation for
Improved Sample Efficiency in Continuous Control Tasks [60.88792564390274]
Neighborhood Mixup Experience Replay (NMER) は、状態-作用空間における遷移を補間する幾何学的に接地されたリプレイバッファである。
NMERは,ベースライン再生バッファ上で平均94%(TD3)と29%(SAC)のサンプリング効率を向上する。
論文 参考訳(メタデータ) (2022-05-18T02:44:08Z) - Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文 参考訳(メタデータ) (2021-10-04T15:53:13Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。