論文の概要: When Does Non-Uniform Replay Matter in Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2605.10236v2
- Date: Tue, 12 May 2026 16:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.115959
- Title: When Does Non-Uniform Replay Matter in Reinforcement Learning?
- Title(参考訳): 強化学習における不均一なリプレイはいつ重要か?
- Authors: Michal Korniak, Mikołaj Czarnecki, Yarden As, Piotr Miłoś, Pieter Abbeel, Michal Nauman,
- Abstract要約: 非一様リプレイの有効性は, 再生量, 環境ステップ毎の再生遷移数, 期待精度, サンプル遷移の頻度, リプレイサンプリング分布のエントロピーの3つの要因に支配されている。
我々は,高エントロピーと無視できない計算オーバーヘッドを保ちながら,サンプリングを最近の経験に偏りを与える,単純なTrncated Geometric replayを採用する。
- 参考スコア(独自算出の注目度): 43.83763359517116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern off-policy reinforcement learning algorithms often rely on simple uniform replay sampling and it remains unclear when and why non-uniform replay improves over this strong baseline. Across diverse RL settings, we show that the effectiveness of non-uniform replay is governed by three factors: replay volume, the number of replayed transitions per environment step; expected recency, how recent sampled transitions are; and the entropy of the replay sampling distribution. Our main contribution is clarifying when non-uniform replay is beneficial and providing practical guidance for replay design in modern off-policy RL. Namely, we find that non-uniform replay is most beneficial when replay volume is low, and that high-entropy sampling is important even at comparable expected recency. Motivated by these findings, we adopt a simple Truncated Geometric replay that biases sampling toward recent experience while preserving high entropy and incurring negligible computational overhead. Across large-scale parallel simulation, single-task, and multi-task settings, including three modern algorithms evaluated on five RL benchmark suites, this replay sampling strategy improves sample efficiency in low-volume regimes while remaining competitive when replay volume is high.
- Abstract(参考訳): 現代の非政治的強化学習アルゴリズムは、しばしば単純な一様リプレイサンプリングに依存しており、この強力なベースラインに対して、いつ、なぜ一様でないリプレイが改善されるのかは定かではない。
様々なRL設定において, 再生量, 環境ステップ当たりの再生回数, 期待精度, サンプル遷移の頻度, 再生サンプリング分布のエントロピーの3つの要因により, 非一様リプレイの有効性が支配されていることを示す。
我々の主な貢献は、一様でないリプレイが有益であるかどうかを明確にすることであり、現代のオフポリチックRLにおけるリプレイ設計のための実践的なガイダンスを提供する。
すなわち,リプレイボリュームが低い場合には非一様リプレイが最も有用であり,高いエントロピーサンプリングが期待される精度でも重要である。
これらの知見に触発されて,高エントロピーと無視できない計算オーバーヘッドを保ちながら,サンプリングを最近の経験に偏りを与える,単純なTrncated Geometric replayを採用した。
5つのRLベンチマークスイートで評価された3つの最新のアルゴリズムを含む大規模並列シミュレーション、シングルタスク、マルチタスク設定を含む、このリプレイサンプリング戦略は、リプレイボリュームが高いときに競争力を維持しながら、低ボリュームのレギュレーションにおけるサンプル効率を改善する。
関連論文リスト
- Efficient RL Training for LLMs with Experience Replay [33.7477995016327]
良く設計されたリプレイバッファは、劣化することなく、推論計算を大幅に削減できることを示す。
良く設計されたリプレイバッファは、劣化することなく、推論計算を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2026-04-09T18:56:12Z) - Replay Can Provably Increase Forgetting [24.538643224479515]
継続的な学習にとって重要な課題は、新しいタスクが導入されるにつれて、以前に学習したタスクのパフォーマンスが低下する、忘れることである。
忘れることを減らすためによく使われる技法の1つ、サンプル再生は、忘れることを減らすために経験的に示されている。
ノイズのない設定であっても,リプレイサンプル数に関して,忘れることはモノトニックではないことを示す。
論文 参考訳(メタデータ) (2025-06-04T18:46:23Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Experience Replay with Random Reshuffling [3.6622737533847936]
教師付き学習では、データセットをエポック毎にシャッフルし、データを逐次的に消費することが一般的であり、これはランダムリシャッフル(RR)と呼ばれる。
RRをリプレイ体験に拡張するサンプリング手法を提案する。
提案手法をAtariベンチマークで評価し, 深層強化学習の有効性を実証した。
論文 参考訳(メタデータ) (2025-03-04T04:37:22Z) - Layerwise Proximal Replay: A Proximal Point Method for Online Continual Learning [22.00843101957619]
オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。
経験的なリプレイでトレーニングされたニューラルネットワークは、不安定な最適化軌道を持つ傾向があります。
本稿では、新しいデータと再生データからの学習のバランスを保ちながら、過去のデータの隠れたアクティベーションの段階的変化を許容するLayerwise Proximal Replay(LPR)を提案する。
論文 参考訳(メタデータ) (2024-02-14T19:34:28Z) - Adiabatic replay for continual learning [138.7878582237908]
生成的リプレイは、すでに知られていることを再学習するだけで、より多くの時間を費やします。
我々は、アディバティック・リプレイ(AR)と呼ぶリプレイベースのCL戦略を提案する。
VAEを用いた最先端の深層再生よりもARの方が優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2023-03-23T10:18:06Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。