論文の概要: TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets
- arxiv url: http://arxiv.org/abs/2212.02125v1
- Date: Mon, 5 Dec 2022 09:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:12:12.716179
- Title: TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets
- Title(参考訳): 混合データセットからのオフライン強化学習のための逆kl正規化機能付きtd3
- Authors: Yuanying Cai, Chuheng Zhang, Li Zhao, Wei Shen, Xuyun Zhang, Lei Song,
Jiang Bian, Tao Qin, Tieyan Liu
- Abstract要約: エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
1) RL信号の最適化と行動クローニング(BC)信号の最適なトレードオフは、異なる行動ポリシーによって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
本稿では,TD3アルゴリズムに基づくBC正規化器として,適応重み付き逆KL(Kulback-Leibler)分散を用いることにより,両課題に対処する。
- 参考スコア(独自算出の注目度): 118.22975463000928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider an offline reinforcement learning (RL) setting where the agent
need to learn from a dataset collected by rolling out multiple behavior
policies. There are two challenges for this setting: 1) The optimal trade-off
between optimizing the RL signal and the behavior cloning (BC) signal changes
on different states due to the variation of the action coverage induced by
different behavior policies. Previous methods fail to handle this by only
controlling the global trade-off. 2) For a given state, the action distribution
generated by different behavior policies may have multiple modes. The BC
regularizers in many previous methods are mean-seeking, resulting in policies
that select out-of-distribution (OOD) actions in the middle of the modes. In
this paper, we address both challenges by using adaptively weighted reverse
Kullback-Leibler (KL) divergence as the BC regularizer based on the TD3
algorithm. Our method not only trades off the RL and BC signals with per-state
weights (i.e., strong BC regularization on the states with narrow action
coverage, and vice versa) but also avoids selecting OOD actions thanks to the
mode-seeking property of reverse KL. Empirically, our algorithm can outperform
existing offline RL algorithms in the MuJoCo locomotion tasks with the standard
D4RL datasets as well as the mixed datasets that combine the standard datasets.
- Abstract(参考訳): エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
この設定には2つの課題があります。
1) RL信号の最適化と行動クローニング(BC)信号の最適トレードオフは, 異なる行動方針によって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
以前の方法は、グローバルなトレードオフを制御するだけでは対処できない。
2) ある状態において、異なる行動ポリシーによって生成される行動分布は、複数のモードを持つことができる。
以前の多くの方法でのbc正規化は平均参照であり、結果としてモードの中央でout-of-distribution (ood) アクションを選択するポリシーとなる。
本稿では,td3アルゴリズムに基づくbc正規化器として,適応重み付き逆kullback-leibler(kl)の発散を用いた。
我々の方法は、RL信号とBC信号と状態単位の重み(例えば、狭めの動作カバレッジを持つ状態における強いBC正規化)を交換するだけでなく、逆KLのモード探索特性によるOOD動作の選択も避ける。
経験的に、我々のアルゴリズムは、MuJoCoのロコモーションタスクにおける既存のオフラインRLアルゴリズムを標準のD4RLデータセットと標準のデータセットを組み合わせた混合データセットで上回ることができる。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。