論文の概要: Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.10282v1
- Date: Wed, 17 May 2023 15:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:09:12.051529
- Title: Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning
- Title(参考訳): Reward-Agnostic Fine-tuning: ハイブリッド強化学習の統計的有用性
- Authors: Gen Li, Wenhao Zhan, Jason D. Lee, Yuejie Chi, Yuxin Chen
- Abstract要約: オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
- 参考スコア(独自算出の注目度): 66.43003402281659
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper studies tabular reinforcement learning (RL) in the hybrid setting,
which assumes access to both an offline dataset and online interactions with
the unknown environment. A central question boils down to how to efficiently
utilize online data collection to strengthen and complement the offline dataset
and enable effective policy fine-tuning. Leveraging recent advances in
reward-agnostic exploration and model-based offline RL, we design a three-stage
hybrid RL algorithm that beats the best of both worlds -- pure offline RL and
pure online RL -- in terms of sample complexities. The proposed algorithm does
not require any reward information during data collection. Our theory is
developed based on a new notion called single-policy partial concentrability,
which captures the trade-off between distribution mismatch and miscoverage and
guides the interplay between offline and online data.
- Abstract(参考訳): 本稿では,オフラインデータセットと未知環境とのオンラインインタラクションの両方へのアクセスを前提としたハイブリッド環境における表型強化学習(rl)について述べる。
中心となる質問は、オフラインデータセットを強化し補完し、効果的なポリシーの微調整を可能にするために、オンラインデータ収集を効率的に利用する方法についてである。
報酬に依存しない探索とモデルベースのオフラインRLの最近の進歩を活用して、サンプルの複雑さの観点から、両方の世界の最高の – 純粋なオフラインRLと純粋なオンラインRL – を打ち負かす3段階のハイブリッドRLアルゴリズムを設計します。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
この理論は、分散ミスマッチと誤発見のトレードオフを捉え、オフラインとオンラインデータ間の相互作用を導く、単一政治部分集中という新しい概念に基づいて開発されている。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。
アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees [23.838354396418868]
本稿では,オンラインアクター批判手法とオフラインデータを組み合わせたハイブリッドRLアルゴリズムを提案する。
当社のアプローチでは,オフラインデータ上でのオフライントレーニングの手順を,オンラインNPGフレームワークに統合する。
論文 参考訳(メタデータ) (2023-11-14T18:45:56Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient [42.47810044648846]
エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。
従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用し,ハイブリッドQラーニングやHy-Qと呼ぶ。
ニューラルネットワーク関数近似を用いたHy-Qは、挑戦的なベンチマークにおいて、最先端のオンライン、オフライン、ハイブリッドRLベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:19:05Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。