論文の概要: Reliability-Adjusted Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2506.18482v1
- Date: Mon, 23 Jun 2025 10:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.934758
- Title: Reliability-Adjusted Prioritized Experience Replay
- Title(参考訳): 信頼性に配慮した優先体験リプレイ
- Authors: Leonard S. Pleiss, Tobias Sutter, Maximilian Schiffer,
- Abstract要約: 本稿では,時間差誤差の信頼性の新たな尺度を導入することで,PER(priitized Experience Replay)の拡張を提案する。
理論的には、結果の遷移選択アルゴリズムであるReliability-adjusted Prioritized Experience Replay (ReaPER)はPERよりも効率的な学習を可能にする。
- 参考スコア(独自算出の注目度): 5.342556166066767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Experience replay enables data-efficient learning from past experiences in online reinforcement learning agents. Traditionally, experiences were sampled uniformly from a replay buffer, regardless of differences in experience-specific learning potential. In an effort to sample more efficiently, researchers introduced Prioritized Experience Replay (PER). In this paper, we propose an extension to PER by introducing a novel measure of temporal difference error reliability. We theoretically show that the resulting transition selection algorithm, Reliability-adjusted Prioritized Experience Replay (ReaPER), enables more efficient learning than PER. We further present empirical results showing that ReaPER outperforms PER across various environment types, including the Atari-5 benchmark.
- Abstract(参考訳): エクスペリエンスの再生は、オンライン強化学習エージェントにおける過去の経験からのデータ効率の学習を可能にする。
従来は、経験固有の学習能力の違いにかかわらず、経験はリプレイバッファから一様にサンプリングされていた。
より効率的にサンプリングするために、研究者は優先順位付き体験再生(PER)を導入した。
本稿では,時間差誤差の信頼性の新たな尺度を導入することでPERの拡張を提案する。
理論的には、結果の遷移選択アルゴリズムであるReliability-adjusted Prioritized Experience Replay (ReaPER)はPERよりも効率的な学習を可能にする。
さらに,ReaPERがAtari-5ベンチマークなど,様々な環境タイプでPERより優れていることを示す実験結果を示す。
関連論文リスト
- Experience Replay with Random Reshuffling [3.6622737533847936]
教師付き学習では、データセットをエポック毎にシャッフルし、データを逐次的に消費することが一般的であり、これはランダムリシャッフル(RR)と呼ばれる。
RRをリプレイ体験に拡張するサンプリング手法を提案する。
提案手法をAtariベンチマークで評価し, 深層強化学習の有効性を実証した。
論文 参考訳(メタデータ) (2025-03-04T04:37:22Z) - Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。
RPE-PERは、RPEに基づいてバッファ内での経験を優先する。
本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文 参考訳(メタデータ) (2025-01-30T02:09:35Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Double Prioritized State Recycled Experience Replay [3.42658286826597]
本稿では,DPSR (Double-prioritized State-Recycled) 体験再生法を提案する。
我々は、この手法をDeep Q-Networks (DQN) で使用し、最先端の結果を得た。
論文 参考訳(メタデータ) (2020-07-08T08:36:41Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。