論文の概要: A Non-Monolithic Policy Approach of Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.23737v1
- Date: Thu, 31 Oct 2024 08:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:07.029390
- Title: A Non-Monolithic Policy Approach of Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン-オンライン強化学習における非モノリシックな政策アプローチ
- Authors: JaeYoon Kim, Junyu Xuan, Christy Liang, Farookh Hussain,
- Abstract要約: オフラインからオンラインへの強化学習(RL)は、トレーニング済みのオフラインポリシと、ダウンストリームタスクのためにトレーニングされたオンラインポリシの両方を使用する。
本研究では, モノリシックな探査手法を用いたオフライン・オフラインRL手法を提案する。
- 参考スコア(独自算出の注目度): 2.823645435281551
- License:
- Abstract: Offline-to-online reinforcement learning (RL) leverages both pre-trained offline policies and online policies trained for downstream tasks, aiming to improve data efficiency and accelerate performance enhancement. An existing approach, Policy Expansion (PEX), utilizes a policy set composed of both policies without modifying the offline policy for exploration and learning. However, this approach fails to ensure sufficient learning of the online policy due to an excessive focus on exploration with both policies. Since the pre-trained offline policy can assist the online policy in exploiting a downstream task based on its prior experience, it should be executed effectively and tailored to the specific requirements of the downstream task. In contrast, the online policy, with its immature behavioral strategy, has the potential for exploration during the training phase. Therefore, our research focuses on harmonizing the advantages of the offline policy, termed exploitation, with those of the online policy, referred to as exploration, without modifying the offline policy. In this study, we propose an innovative offline-to-online RL method that employs a non-monolithic exploration approach. Our methodology demonstrates superior performance compared to PEX.
- Abstract(参考訳): オフライン間強化学習(RL)は、事前訓練されたオフラインポリシーと下流タスクのために訓練されたオンラインポリシーの両方を活用する。
既存のアプローチであるポリシ拡張(PEX)では、探索と学習のオフラインポリシを変更することなく、両方のポリシで構成されるポリシセットを使用している。
しかし、この手法は、両政策の探索に過度な注力のため、オンライン政策の十分な学習を保証するには失敗する。
事前訓練されたオフラインポリシは、ダウンストリームタスクを前回の経験に基づいて活用するオンラインポリシを支援することができるため、ダウンストリームタスクの特定の要件に合わせて効果的に実行し、調整する必要がある。
対照的に、オンライン政策は、未熟な行動戦略とともに、トレーニングフェーズにおける探索の可能性を秘めている。
そこで本研究では,オフライン政策の利点と,オフライン政策を変更することなく,探索と呼ばれるオンライン政策の利点を調和させることに重点を置いている。
本研究では, モノリシックな探査手法を用いたオフライン・オフラインRL手法を提案する。
提案手法は, PEXと比較して優れた性能を示す。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL [42.57662196581823]
オフ・ポリティクス強化学習(RL)は、多くの複雑な現実世界のタスクに取り組むことで顕著な成功を収めた。
既存のRLアルゴリズムの多くは、リプレイバッファ内の情報を最大限活用できない。
OBAC(Offline-Boosted Actor-Critic)は、モデルのないオンラインRLフレームワークで、優れたオフラインポリシーをエレガントに識別する。
論文 参考訳(メタデータ) (2024-05-28T18:38:46Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Policy Expansion for Bridging Offline-to-Online Reinforcement Learning [20.24902196844508]
本稿では,この課題に対する政策拡張スキームを紹介する。
オフラインポリシーを学んだ後、ポリシーセットでひとつの候補ポリシーとして使用します。
そして、さらなる学習に責任を持つ別の政策で政策を拡大します。
論文 参考訳(メタデータ) (2023-02-02T08:25:12Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。