論文の概要: Policy Expansion for Bridging Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.00935v2
- Date: Tue, 4 Apr 2023 01:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 17:58:44.592117
- Title: Policy Expansion for Bridging Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン・オンライン強化学習のための政策拡張
- Authors: Haichao Zhang, We Xu, Haonan Yu
- Abstract要約: 本稿では,この課題に対する政策拡張スキームを紹介する。
オフラインポリシーを学んだ後、ポリシーセットでひとつの候補ポリシーとして使用します。
そして、さらなる学習に責任を持つ別の政策で政策を拡大します。
- 参考スコア(独自算出の注目度): 20.24902196844508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training with offline data and online fine-tuning using reinforcement
learning is a promising strategy for learning control policies by leveraging
the best of both worlds in terms of sample efficiency and performance. One
natural approach is to initialize the policy for online learning with the one
trained offline. In this work, we introduce a policy expansion scheme for this
task. After learning the offline policy, we use it as one candidate policy in a
policy set. We then expand the policy set with another policy which will be
responsible for further learning. The two policies will be composed in an
adaptive manner for interacting with the environment. With this approach, the
policy previously learned offline is fully retained during online learning,
thus mitigating the potential issues such as destroying the useful behaviors of
the offline policy in the initial stage of online learning while allowing the
offline policy participate in the exploration naturally in an adaptive manner.
Moreover, new useful behaviors can potentially be captured by the newly added
policy through learning. Experiments are conducted on a number of tasks and the
results demonstrate the effectiveness of the proposed approach.
- Abstract(参考訳): オフラインデータによる事前学習と強化学習を用いたオンライン微調整は、サンプル効率と性能の観点から両世界の最善を生かして制御政策を学ぶ上で有望な戦略である。
1つの自然なアプローチは、オンライン学習のポリシーをトレーニングされたオフラインで初期化することだ。
本稿では,この課題に対する政策拡張スキームを紹介する。
オフラインポリシーを学んだ後、ポリシーセットでひとつの候補ポリシーとして使用します。
そして、そのポリシーセットを、さらなる学習に責任を持つ別のポリシーで拡張します。
2つのポリシーは、環境と対話するための適応的な方法で構成されます。
このアプローチでは、以前に学習したオフラインポリシがオンライン学習中に完全に保持されるため、オンライン学習の初期段階におけるオフラインポリシの有用な動作の破棄や、オフラインポリシが自然に探索に適応的に参加することといった潜在的な問題を軽減できる。
さらに、新たな有用な行動は、学習を通じて新たに追加されたポリシーによって捉えられる可能性がある。
様々な課題に対して実験を行い,提案手法の有効性を実証した。
関連論文リスト
- A Non-Monolithic Policy Approach of Offline-to-Online Reinforcement Learning [2.823645435281551]
オフラインからオンラインへの強化学習(RL)は、トレーニング済みのオフラインポリシと、ダウンストリームタスクのためにトレーニングされたオンラインポリシの両方を使用する。
本研究では, モノリシックな探査手法を用いたオフライン・オフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T08:49:37Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization [24.969834057981046]
従来のアプローチでは、オフラインとオンラインの学習を別々の手順として扱い、冗長な設計と限られたパフォーマンスをもたらす。
オフライン学習とオンライン学習の両方に、政治上の目的を利用するUni-o4を提案する。
本手法は,オフラインとオフラインのファインチューニング学習の両方において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2023-11-06T18:58:59Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Safe Evaluation For Offline Learning: Are We Ready To Deploy? [47.331520779610535]
本稿では, ほぼ信頼度の高いオフ政治評価を用いて, オフライン学習の安全性評価を行う枠組みを提案する。
低いバウンドの見積もりは、新しく学習したターゲットポリシーが実際の環境にデプロイされる前にどれだけうまく機能するかを教えてくれます。
論文 参考訳(メタデータ) (2022-12-16T06:43:16Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Behavior Constraining in Weight Space for Offline Reinforcement Learning [2.7184068098378855]
オフラインの強化学習では、ポリシーは単一のデータセットから学ぶ必要がある。
そこで,本研究では,本手法を重み空間内で直接制約する新しいアルゴリズムを提案し,その有効性を実験で実証する。
論文 参考訳(メタデータ) (2021-07-12T14:50:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。