論文の概要: Offline Reinforcement Learning with Fisher Divergence Critic
Regularization
- arxiv url: http://arxiv.org/abs/2103.08050v1
- Date: Sun, 14 Mar 2021 22:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:03:02.463192
- Title: Offline Reinforcement Learning with Fisher Divergence Critic
Regularization
- Title(参考訳): fisher divergence critic regularizationを用いたオフライン強化学習
- Authors: Ilya Kostrikov, Jonathan Tompson, Rob Fergus, Ofir Nachum
- Abstract要約: そこで我々は,学習した政策がデータに近づき続けることを奨励する代替的アプローチを提案する。
動作の正規化は、オフセット期間の適切な正規化に対応します。
本研究ではfisher-brcアルゴリズムにより,既存の最先端手法に対する性能向上と収束の高速化を両立する。
- 参考スコア(独自算出の注目度): 41.085156836450466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern approaches to offline Reinforcement Learning (RL) utilize
behavior regularization, typically augmenting a model-free actor critic
algorithm with a penalty measuring divergence of the policy from the offline
data. In this work, we propose an alternative approach to encouraging the
learned policy to stay close to the data, namely parameterizing the critic as
the log-behavior-policy, which generated the offline data, plus a state-action
value offset term, which can be learned using a neural network. Behavior
regularization then corresponds to an appropriate regularizer on the offset
term. We propose using a gradient penalty regularizer for the offset term and
demonstrate its equivalence to Fisher divergence regularization, suggesting
connections to the score matching and generative energy-based model literature.
We thus term our resulting algorithm Fisher-BRC (Behavior Regularized Critic).
On standard offline RL benchmarks, Fisher-BRC achieves both improved
performance and faster convergence over existing state-of-the-art methods.
- Abstract(参考訳): オフライン強化学習(RL)に対する現代の多くのアプローチは、通常、オフラインデータからポリシーのばらつきを測定するペナルティを持つモデルフリーアクター批評家アルゴリズムを増強する行動規則化を利用している。
本研究では,オフラインデータを生成するログビヘイビア・ポリティ(log-behavior-policy)と,ニューラルネットワークを用いて学習可能な状態アクション値オフセット項をパラメータ化して,学習方針がデータに近づき続けることを奨励する代替手法を提案する。
動作の正規化は、オフセット期間の適切な正規化に対応します。
本稿では,オフセット項に勾配ペナルティ正規化器を用い,フィッシャーの発散正規化と等価性を実証し,スコアマッチングと生成エネルギーに基づくモデル文献との関連性を提案する。
そこで,このアルゴリズムをfisher-brc (behavior regularized critic) と呼ぶ。
標準のオフラインRLベンチマークでは、Fisher-BRCはパフォーマンスの向上と既存の最先端のメソッドよりも迅速な収束を実現します。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。