論文の概要: SOReL and TOReL: Two Methods for Fully Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.22442v2
- Date: Thu, 29 May 2025 20:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.131316
- Title: SOReL and TOReL: Two Methods for Fully Offline Reinforcement Learning
- Title(参考訳): SOReLとTOReL:完全オフライン強化学習のための2つの方法
- Authors: Mattie Fellows, Clarisse Wibault, Uljad Berdica, Johannes Forkel, Michael A. Osborne, Jakob N. Foerster,
- Abstract要約: 本稿では,安全なオフライン強化学習のためのアルゴリズムSOReLを紹介する。
オフライン強化学習アルゴリズムTOReLについても紹介する。
我々の経験的評価は, ベイズ条件下での後悔を正確に推定するSOReLの能力を裏付けるものである。
- 参考スコア(独自算出の注目度): 31.408045330580087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample efficiency remains a major obstacle for real world adoption of reinforcement learning (RL): success has been limited to settings where simulators provide access to essentially unlimited environment interactions, which in reality are typically costly or dangerous to obtain. Offline RL in principle offers a solution by exploiting offline data to learn a near-optimal policy before deployment. In practice, however, current offline RL methods rely on extensive online interactions for hyperparameter tuning, and have no reliable bound on their initial online performance. To address these two issues, we introduce two algorithms. Firstly, SOReL: an algorithm for safe offline reinforcement learning. Using only offline data, our Bayesian approach infers a posterior over environment dynamics to obtain a reliable estimate of the online performance via the posterior predictive uncertainty. Crucially, all hyperparameters are also tuned fully offline. Secondly, we introduce TOReL: a tuning for offline reinforcement learning algorithm that extends our information rate based offline hyperparameter tuning methods to general offline RL approaches. Our empirical evaluation confirms SOReL's ability to accurately estimate regret in the Bayesian setting whilst TOReL's offline hyperparameter tuning achieves competitive performance with the best online hyperparameter tuning methods using only offline data. Thus, SOReL and TOReL make a significant step towards safe and reliable offline RL, unlocking the potential for RL in the real world. Our implementations are publicly available: https://github.com/CWibault/sorel\_torel.
- Abstract(参考訳): サンプル効率は、実世界の強化学習(RL)導入の大きな障害であり、成功は、シミュレータが本質的に無制限な環境相互作用へのアクセスを提供する設定に限られている。
原則としてオフラインRLは、オフラインデータを利用してデプロイ前にほぼ最適なポリシを学ぶソリューションを提供する。
しかし、実際には、現在のオフラインRL手法はハイパーパラメータチューニングのための広範なオンラインインタラクションに依存しており、初期のオンラインパフォーマンスには信頼性がない。
これら2つの問題に対処するために,2つのアルゴリズムを導入する。
まず、SOReLは安全なオフライン強化学習のためのアルゴリズムである。
オフラインデータのみを用いて、ベイジアンアプローチは、後続予測の不確実性を通じて、オンラインパフォーマンスの信頼性の高い推定値を得るために、環境力学の後方推定を行う。
重要なことに、すべてのハイパーパラメータも完全にオフラインに調整されている。
第2にTOReL: 情報レートに基づくオフライン高パラメータチューニング手法を一般のオフラインRLアプローチに拡張するオフライン強化学習アルゴリズムについて紹介する。
ToReLのオフラインハイパーパラメータチューニングは、オフラインデータのみを用いた最高のオンラインハイパーパラメータチューニング手法と競合する性能を達成する一方、我々は、SOReLのベイズ的設定における後悔を正確に推定する能力を確認した。
したがって、SOReLとTOReLは安全で信頼性の高いオフラインRLに向けて大きな一歩を踏み出し、現実世界におけるRLの可能性を解き放ちます。
私たちの実装は、https://github.com/CWibault/sorel\_torel.comで公開されています。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。
アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy [12.589890916332196]
オフラインからオフライン(O2O)のRLを利用することで、より高速で安全なオンラインポリシ学習が可能になる。
我々は,O2OセーフなRLのための新しいフレームワークであるtextbfMarvelを紹介した。
我々の研究は、より効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-12-05T18:51:18Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。