論文の概要: BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.00894v1
- Date: Sat, 2 Oct 2021 23:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 08:55:42.609939
- Title: BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning
- Title(参考訳): BRAC+:オフライン強化学習のための正規化アクター批判
- Authors: Chi Zhang, Sanmukh Rao Kuppannagari, Viktor K Prasanna
- Abstract要約: オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
- 参考スコア(独自算出の注目度): 14.432131909590824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online interactions with the environment to collect data samples for training
a Reinforcement Learning (RL) agent is not always feasible due to economic and
safety concerns. The goal of Offline Reinforcement Learning is to address this
problem by learning effective policies using previously collected datasets.
Standard off-policy RL algorithms are prone to overestimations of the values of
out-of-distribution (less explored) actions and are hence unsuitable for
Offline RL. Behavior regularization, which constraints the learned policy
within the support set of the dataset, has been proposed to tackle the
limitations of standard off-policy algorithms. In this paper, we improve the
behavior regularized offline reinforcement learning and propose BRAC+. First,
we propose quantification of the out-of-distribution actions and conduct
comparisons between using Kullback-Leibler divergence versus using Maximum Mean
Discrepancy as the regularization protocol. We propose an analytical upper
bound on the KL divergence as the behavior regularizer to reduce variance
associated with sample based estimations. Second, we mathematically show that
the learned Q values can diverge even using behavior regularized policy update
under mild assumptions. This leads to large overestimations of the Q values and
performance deterioration of the learned policy. To mitigate this issue, we add
a gradient penalty term to the policy evaluation objective. By doing so, the Q
values are guaranteed to converge. On challenging offline RL benchmarks, BRAC+
outperforms the baseline behavior regularized approaches by 40%~87% and the
state-of-the-art approach by 6%.
- Abstract(参考訳): 強化学習(RL)エージェントを訓練するためのデータサンプル収集環境とのオンラインインタラクションは、経済的・安全上の懸念から常に実現可能であるとは限らない。
オフライン強化学習の目的は、事前に収集したデータセットを使って効果的なポリシーを学習することでこの問題に対処することである。
標準的なオフポリチィRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向があるため、オフラインRLには適さない。
データセットのサポートセット内で学習ポリシーを制約する行動規則化が、標準オフポリシーアルゴリズムの制限に取り組むために提案されている。
本稿では,オフライン強化学習の動作を規則化し,brac+を提案する。
まず,分散動作の定量化を提案し,kullback-leibler 発散と最大平均偏差を正規化プロトコルとして用いる場合の比較を行う。
そこで本研究では, サンプルベース推定に伴う分散を低減するために, 挙動正則化器としてKL偏差解析上界を提案する。
第2に, 学習されたq値が, 軽度仮定下での行動正規化ポリシー更新を用いても発散可能であることを数学的に示す。
これにより、q値が過大評価され、学習したポリシーのパフォーマンスが低下する。
この問題を緩和するため、政策評価の対象に勾配ペナルティ項を追加する。
これにより、Q値は収束することが保証される。
挑戦的なオフラインRLベンチマークでは、BRAC+はベースラインの動作規則化アプローチを40%から87%、最先端アプローチを6%上回っている。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Offline Reinforcement Learning with Fisher Divergence Critic
Regularization [41.085156836450466]
そこで我々は,学習した政策がデータに近づき続けることを奨励する代替的アプローチを提案する。
動作の正規化は、オフセット期間の適切な正規化に対応します。
本研究ではfisher-brcアルゴリズムにより,既存の最先端手法に対する性能向上と収束の高速化を両立する。
論文 参考訳(メタデータ) (2021-03-14T22:11:40Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。