論文の概要: Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning
- arxiv url: http://arxiv.org/abs/2211.11802v1
- Date: Mon, 21 Nov 2022 19:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:22:29.767515
- Title: Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning
- Title(参考訳): TD3-BCの改善:オフライン学習と安定オンラインファインチューニングのための緩和されたポリシー制約
- Authors: Alex Beeson and Giovanni Montana
- Abstract要約: 主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
- 参考スコア(独自算出の注目度): 7.462336024223669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to discover optimal behaviour from fixed data sets has the
potential to transfer the successes of reinforcement learning (RL) to domains
where data collection is acutely problematic. In this offline setting, a key
challenge is overcoming overestimation bias for actions not present in data
which, without the ability to correct for via interaction with the environment,
can propagate and compound during training, leading to highly sub-optimal
policies. One simple method to reduce this bias is to introduce a policy
constraint via behavioural cloning (BC), which encourages agents to pick
actions closer to the source data. By finding the right balance between RL and
BC such approaches have been shown to be surprisingly effective while requiring
minimal changes to the underlying algorithms they are based on. To date this
balance has been held constant, but in this work we explore the idea of tipping
this balance towards RL following initial training. Using TD3-BC, we
demonstrate that by continuing to train a policy offline while reducing the
influence of the BC component we can produce refined policies that outperform
the original baseline, as well as match or exceed the performance of more
complex alternatives. Furthermore, we demonstrate such an approach can be used
for stable online fine-tuning, allowing policies to be safely improved during
deployment.
- Abstract(参考訳): 固定データセットから最適な振る舞いを発見する能力は、データ収集が深刻な問題のある領域に強化学習(RL)の成功を移す可能性がある。
このオフライン環境では、重要な課題は、データに存在しないアクションに対する過大評価バイアスを克服することであり、環境との相互作用によって修正する能力がなければ、トレーニング中に伝播し、複合し、非常に準最適ポリシーにつながる。
このバイアスを減らすための単純な方法は、エージェントがソースデータに近いアクションを選択することを奨励する行動的クローニング(BC)を通じてポリシー制約を導入することである。
RLとBCの間の適切なバランスを見つけることで、そのようなアプローチは驚くほど効果的であり、基盤となるアルゴリズムに最小限の変更を必要とすることが示されている。
これまで、このバランスは一定に保たれてきたが、本研究では、最初のトレーニングの後、このバランスをRLに転換するというアイデアを探求する。
TD3-BCを使用することで、BCコンポーネントの影響を低減しつつ、ポリシーをオフラインでトレーニングし続けることで、オリジナルのベースラインを上回り、より複雑な代替手段のパフォーマンスに適合または超越した、洗練されたポリシーを作成できることを示す。
さらに、このようなアプローチを安定したオンライン微調整に使用することができ、デプロイ中にポリシーを安全に改善できることを示す。
関連論文リスト
- Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。