論文の概要: Mildly Conservative Q-Learning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04745v3
- Date: Wed, 21 Feb 2024 05:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:59:18.703213
- Title: Mildly Conservative Q-Learning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための軽度保守的Qラーニング
- Authors: Jiafei Lyu, Xiaoteng Ma, Xiu Li, Zongqing Lu
- Abstract要約: オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
- 参考スコア(独自算出の注目度): 63.2183622958666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) defines the task of learning from a
static logged dataset without continually interacting with the environment. The
distribution shift between the learned policy and the behavior policy makes it
necessary for the value function to stay conservative such that
out-of-distribution (OOD) actions will not be severely overestimated. However,
existing approaches, penalizing the unseen actions or regularizing with the
behavior policy, are too pessimistic, which suppresses the generalization of
the value function and hinders the performance improvement. This paper explores
mild but enough conservatism for offline learning while not harming
generalization. We propose Mildly Conservative Q-learning (MCQ), where OOD
actions are actively trained by assigning them proper pseudo Q values. We
theoretically show that MCQ induces a policy that behaves at least as well as
the behavior policy and no erroneous overestimation will occur for OOD actions.
Experimental results on the D4RL benchmarks demonstrate that MCQ achieves
remarkable performance compared with prior work. Furthermore, MCQ shows
superior generalization ability when transferring from offline to online, and
significantly outperforms baselines. Our code is publicly available at
https://github.com/dmksjfl/MCQ.
- Abstract(参考訳): オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
学習した政策と行動方針の間の分配シフトは、価値関数が保守的であり続ける必要があるため、分散(ood)アクションが過大評価されない。
しかし、既存のアプローチでは、目に見えない行動のペナルティ化や行動方針の規則化は悲観的すぎるため、値関数の一般化が抑制され、性能改善の妨げとなる。
本稿では, 一般化を損なうことなく, オフライン学習に十分な保守性について検討する。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
理論的には、MCQは少なくとも行動方針と同様に振舞う政策を誘導し、OOD行動に対して誤った過大評価が起こらないことを示す。
D4RLベンチマークの実験結果から, MCQは従来よりも優れた性能を示した。
さらに、MCQはオフラインからオンラインへの移行において優れた一般化能力を示し、ベースラインを著しく上回る。
私たちのコードはhttps://github.com/dmksjfl/mcqで公開しています。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。