論文の概要: Rainbow-DemoRL: Combining Improvements in Demonstration-Augmented Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.27400v1
- Date: Sat, 28 Mar 2026 20:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.938263
- Title: Rainbow-DemoRL: Combining Improvements in Demonstration-Augmented Reinforcement Learning
- Title(参考訳): レインボー・デモRL:実証強化型強化学習の改良
- Authors: Dwait Bhatt, Shih-Chieh Chou, Nikolay Atanasov,
- Abstract要約: オフラインで収集した実演を活用することで,オンライン強化学習(RL)のサンプル効率を向上させるために,いくつかのアプローチが提案されている。
既存の実演型RLアプローチを3つのカテゴリに分類し,その強度,弱点,組み合わせに関する実証的研究を行った。
分析の結果,オフラインデータを直接再利用し,動作のクローン化による初期化は,オンラインサンプル効率を向上させるために,より複雑なオフラインRL事前学習法よりも優れていた。
- 参考スコア(独自算出の注目度): 5.7784578751617275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several approaches have been proposed to improve the sample efficiency of online reinforcement learning (RL) by leveraging demonstrations collected offline. The offline data can be used directly as transitions to optimize RL objectives, or offline policy and value functions can first be learned from the data and then used for online finetuning or to provide reference actions. While each of these strategies has shown compelling results, it is unclear which method has the most impact on sample efficiency, whether these approaches can be combined, and if there are cumulative benefits. We classify existing demonstration-augmented RL approaches into three categories and perform an extensive empirical study of their strengths, weaknesses, and combinations to isolate the contribution of each strategy and determine effective hybrid combinations for sample-efficient online RL. Our analysis reveals that directly reusing offline data and initializing with behavior cloning consistently outperform more complex offline RL pretraining methods for improving online sample efficiency.
- Abstract(参考訳): オフラインで収集した実演を活用することで,オンライン強化学習(RL)のサンプル効率を向上させるために,いくつかのアプローチが提案されている。
オフラインデータは、RLの目的を最適化するためのトランジションとして、あるいはオフラインポリシーとバリュー関数を直接、データから学習し、オンラインの微調整や参照アクションの提供に使用することができる。
いずれの戦略も説得力のある結果を示しているが、どの手法がサンプリング効率に最も影響を与えるのか、これらの手法が組み合わさるかどうか、累積的な利点があるかどうかは不明だ。
我々は,既存の実演型RLアプローチを3つのカテゴリに分類し,その強み,弱点,組み合わせについて広範な実証研究を行い,各戦略の貢献を分離し,サンプル効率の良いオンラインRLのための効果的なハイブリッド組み合わせを決定する。
分析の結果,オフラインデータを直接再利用し,動作のクローン化による初期化は,オンラインサンプル効率を向上させるために,より複雑なオフラインRL事前学習法よりも優れていた。
関連論文リスト
- An Empirical Study on the Effectiveness of Incorporating Offline RL As Online RL Subroutines [8.277534985461477]
オフラインRLアルゴリズムをタブラララサオンラインRLのサブルーチンとして組み込むという新しい視点を採っている。
オンライン学習エージェントは、過去のインタラクションをオフラインデータセットとして再利用できるため、これは実現可能である。
我々は、このアイデアを、オフラインRLのいくつかの変種に対応するフレームワークにフォーマル化する。
論文 参考訳(メタデータ) (2025-11-29T08:17:03Z) - Bridging Offline and Online Reinforcement Learning for LLMs [71.48552761763158]
オフラインから半オンラインに移行する際の大規模言語モデルの微調整における強化学習手法の有効性について検討する。
実験では、検証可能な数学のトレーニングに加えて、検証不可能な教育のトレーニングと、両方のベンチマーク評価のセットについて取り上げている。
論文 参考訳(メタデータ) (2025-06-26T17:25:49Z) - Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。
オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。
本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。
タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T14:08:36Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。