論文の概要: RORL: Robust Offline Reinforcement Learning via Conservative Smoothing
- arxiv url: http://arxiv.org/abs/2206.02829v1
- Date: Mon, 6 Jun 2022 18:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:11:57.772228
- Title: RORL: Robust Offline Reinforcement Learning via Conservative Smoothing
- Title(参考訳): RORL:保守的スムーシングによるロバストオフライン強化学習
- Authors: Rui Yang, Chenjia Bai, Xiaoteng Ma, Zhaoran Wang, Chongjie Zhang, Lei
Han
- Abstract要約: オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
- 参考スコア(独自算出の注目度): 72.8062448549897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) provides a promising direction to exploit
the massive amount of offline data for complex decision-making tasks. Due to
the distribution shift issue, current offline RL algorithms are generally
designed to be conservative for value estimation and action selection. However,
such conservatism impairs the robustness of learned policies, leading to a
significant change even for a small perturbation on observations. To trade off
robustness and conservatism, we propose Robust Offline Reinforcement Learning
(RORL) with a novel conservative smoothing technique. In RORL, we explicitly
introduce regularization on the policy and the value function for states near
the dataset and additional conservative value estimation on these OOD states.
Theoretically, we show RORL enjoys a tighter suboptimality bound than recent
theoretical results in linear MDPs. We demonstrate that RORL can achieve the
state-of-the-art performance on the general offline RL benchmark and is
considerably robust to adversarial observation perturbation.
- Abstract(参考訳): オフライン強化学習(RL)は、複雑な意思決定タスクのために大量のオフラインデータを活用するための有望な方向を提供する。
分散シフトの問題により、現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的であるように設計されている。
しかし、そのような保守主義は学習された政策の頑健さを損なうため、観測に対する小さな摂動においても大きな変化をもたらす。
堅牢性と保守性をトレードオフするために,新しい保存的平滑化手法を用いたロバストオフライン強化学習(rorl)を提案する。
RORLでは、データセット近傍の状態に対するポリシーと値関数の正規化と、これらのOOD状態に対するさらなる保守的値推定を導入する。
理論的には、RORL は線形 MDP の最近の理論的結果よりも厳密な準最適性を持つことを示す。
我々はRORLが一般オフラインRLベンチマークで最先端の性能を達成できることを示し、対向的な観測摂動に対してかなり堅牢であることを示した。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - CROP: Conservative Reward for Model-based Offline Policy Optimization [15.121328040092264]
本稿では、モデルベースオフラインポリシー最適化(CROP)のための新しいモデルベースオフラインRLアルゴリズム、保守的リワードを提案する。
保守的な報奨推定を実現するため、CROPは、ランダムな動作の推定誤差と報酬を同時に最小化する。
特にCROPは、オフラインRLとオンラインRLの革新的な接続を確立し、オンラインRL技術を採用することでオフラインRLの問題に取り組むことができることを強調している。
論文 参考訳(メタデータ) (2023-10-26T08:45:23Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。