論文の概要: Robust Offline Reinforcement Learning with Gradient Penalty and
Constraint Relaxation
- arxiv url: http://arxiv.org/abs/2210.10469v1
- Date: Wed, 19 Oct 2022 11:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:18:23.262771
- Title: Robust Offline Reinforcement Learning with Gradient Penalty and
Constraint Relaxation
- Title(参考訳): 勾配ペナルティと制約緩和を用いたロバストオフライン強化学習
- Authors: Chengqian Gao, Ke Xu, Liu Liu, Deheng Ye, Peilin Zhao, Zhiqiang Xu
- Abstract要約: 爆発するQ-関数に対処するために,学習値関数に対する勾配ペナルティを導入する。
次に、批判重み付き制約緩和による非最適行動に対する近接性制約を緩和する。
実験結果から,提案手法は方針制約付きオフラインRL法において,最適でない軌道を効果的に制御できることが示唆された。
- 参考スコア(独自算出の注目度): 38.95482624075353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promising paradigm for offline reinforcement learning (RL) is to constrain
the learned policy to stay close to the dataset behaviors, known as policy
constraint offline RL. However, existing works heavily rely on the purity of
the data, exhibiting performance degradation or even catastrophic failure when
learning from contaminated datasets containing impure trajectories of diverse
levels. e.g., expert level, medium level, etc., while offline contaminated data
logs exist commonly in the real world. To mitigate this, we first introduce
gradient penalty over the learned value function to tackle the exploding
Q-functions. We then relax the closeness constraints towards non-optimal
actions with critic weighted constraint relaxation. Experimental results show
that the proposed techniques effectively tame the non-optimal trajectories for
policy constraint offline RL methods, evaluated on a set of contaminated D4RL
Mujoco and Adroit datasets.
- Abstract(参考訳): オフライン強化学習(RL)の有望なパラダイムは、学習したポリシーを、オフラインRLとして知られるデータセットの動作に近づけるように制限することである。
しかし、既存の研究はデータの純度に大きく依存しており、様々なレベルの不純な軌跡を含む汚染データセットから学ぶ際に、性能劣化や破滅的な失敗さえも示している。
例えば、専門家レベル、中レベルなど、オフラインで汚染されたデータログは、現実世界に一般的に存在する。
これを緩和するために、まず学習値関数に対する勾配ペナルティを導入し、爆発するQ-関数に対処する。
そして,非最適行動に対する親密性制約を緩和し,制約緩和を批判する。
提案手法は, 汚染されたD4RL MujocoとAdroitのデータセットを用いて, 政策制約付きオフラインRL手法の最適トラジェクトリを効果的に活用できることを実験的に示す。
関連論文リスト
- Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning [4.0847743592744905]
強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。
RLのトレーニングアプローチは、"オン・ポリティクス(on-policy)"サンプリングを中心にしているが、データを完全には活用していない。
オフラインRLは魅力的な代替手段として現れており、特に追加実験を行うことは実用的ではない。
論文 参考訳(メタデータ) (2024-07-17T20:57:05Z) - Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling [34.547551367941246]
センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
時間差分学習に基づく従来のオフラインRL手法は、データ破損時に決定変換器(DT)を過小評価する傾向にある。
本稿では,ロバスト決定変換器 (RDT) を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:34:32Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。