論文の概要: Adaptive Replay Buffer for Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.10510v1
- Date: Thu, 11 Dec 2025 10:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.323801
- Title: Adaptive Replay Buffer for Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン・オンライン強化学習のための適応リプレイバッファ
- Authors: Chihyeon Song, Jaewoo Lee, Jinkyoo Park,
- Abstract要約: 私たちはAdaptive Replay Buffer (ARB)を紹介します。これは'オン・ポリティネス'と呼ばれる軽量なメトリックに基づいてデータサンプリングを優先順位付けする新しいアプローチです。
ARBは学習不要で実装が簡単で、既存のオフラインからオンラインへの強化学習アルゴリズムにシームレスに統合できるように設計されている。
D4RLベンチマーク実験により, ARBは早期性能劣化を抑えつつ, 各種O2O RLアルゴリズムの最終的な性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 29.513882808306406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline-to-Online Reinforcement Learning (O2O RL) faces a critical dilemma in balancing the use of a fixed offline dataset with newly collected online experiences. Standard methods, often relying on a fixed data-mixing ratio, struggle to manage the trade-off between early learning stability and asymptotic performance. To overcome this, we introduce the Adaptive Replay Buffer (ARB), a novel approach that dynamically prioritizes data sampling based on a lightweight metric we call 'on-policyness'. Unlike prior methods that rely on complex learning procedures or fixed ratios, ARB is designed to be learning-free and simple to implement, seamlessly integrating into existing O2O RL algorithms. It assesses how closely collected trajectories align with the current policy's behavior and assigns a proportional sampling weight to each transition within that trajectory. This strategy effectively leverages offline data for initial stability while progressively focusing learning on the most relevant, high-rewarding online experiences. Our extensive experiments on D4RL benchmarks demonstrate that ARB consistently mitigates early performance degradation and significantly improves the final performance of various O2O RL algorithms, highlighting the importance of an adaptive, behavior-aware replay buffer design.
- Abstract(参考訳): Offline-to-Online Reinforcement Learning (O2O RL)は、固定オフラインデータセットと新たに収集されたオンラインエクスペリエンスのバランスをとる上で、重要なジレンマに直面している。
標準的な手法は、しばしば固定されたデータ混合比に依存し、早期学習の安定性と漸近的なパフォーマンスの間のトレードオフを管理するのに苦労する。
この問題を解決するために、我々はAdaptive Replay Buffer (ARB)を導入しました。
複雑な学習手順や固定比率に依存する従来の方法とは異なり、ABBは学習不要で実装が簡単で、既存のO2O RLアルゴリズムにシームレスに統合できるように設計されている。
収集された軌道が現在の政策の行動とどのように一致しているかを評価し、その軌道内の各遷移に比例的なサンプリング重量を割り当てる。
この戦略は、オフラインデータを効果的に活用し、最も関連性の高いハイリワードなオンライン体験に学習を徐々に集中させながら、初期安定性を高める。
D4RLベンチマークに関する広範な実験により、ABBは早期性能劣化を一貫して軽減し、様々なO2O RLアルゴリズムの最終性能を大幅に改善し、適応的かつ行動認識型リプレイバッファ設計の重要性を強調した。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Filtering Learning Histories Enhances In-Context Reinforcement Learning [12.697029805927398]
トランスフォーマーモデル(TM)は、テキスト内強化学習能力に優れていた。
我々は、ICRLを強化するために、単純で効果的な学習履歴フィルタリング(LHF)を提案する。
LHFは、データセット前処理によるソースの最適化を回避するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-05-21T06:00:41Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A simple but strong baseline for online continual learning: Repeated
Augmented Rehearsal [13.075018350152074]
オンライン連続学習(OCL)は、単一のデータパスで、非定常データストリームからニューラルネットワークを漸進的にトレーニングすることを目的としている。
リハーサルベースの手法は、観測された入力分布を小さなメモリで時間とともに近似し、後にそれを再検討して、忘れることを避ける。
本稿では,バイアスや動的経験的リスク最小化の観点から,メモリ過適合リスクに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2022-09-28T08:43:35Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。