論文の概要: Robust Offline Reinforcement Learning -- Certify the Confidence Interval
- arxiv url: http://arxiv.org/abs/2309.16631v2
- Date: Tue, 3 Oct 2023 02:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:15:11.342610
- Title: Robust Offline Reinforcement Learning -- Certify the Confidence Interval
- Title(参考訳): 堅牢なオフライン強化学習 -- 信頼区間の証明
- Authors: Jiarui Yao and Simon Shaolei Du
- Abstract要約: ランダムな平滑化でオフラインでポリシーのロバスト性を証明するためのアルゴリズムを開発する。
異なる環境における実験により,アルゴリズムの正確性が確認された。
- 参考スコア(独自算出の注目度): 15.464948077412025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, reinforcement learning (RL), especially deep RL, has received more
and more attention in the research area. However, the security of RL has been
an obvious problem due to the attack manners becoming mature. In order to
defend against such adversarial attacks, several practical approaches are
developed, such as adversarial training, data filtering, etc. However, these
methods are mostly based on empirical algorithms and experiments, without
rigorous theoretical analysis of the robustness of the algorithms. In this
paper, we develop an algorithm to certify the robustness of a given policy
offline with random smoothing, which could be proven and conducted as
efficiently as ones without random smoothing. Experiments on different
environments confirm the correctness of our algorithm.
- Abstract(参考訳): 現在、強化学習(RL)、特に深層学習(RL)は、研究領域でますます注目を集めている。
しかし、RLのセキュリティは攻撃方法が成熟するにつれて明らかな問題となっている。
このような敵攻撃に対して防御するために、敵の訓練やデータフィルタリングなど、いくつかの実践的なアプローチが開発されている。
しかし、これらの手法は主に経験的アルゴリズムと実験に基づいており、アルゴリズムの堅牢性に関する厳密な理論的分析は行わない。
本論文では, ランダムな平滑化を伴わずに, ランダムな平滑化を伴わずに, 効率よく実施できるような, ある方針の堅牢性を証明できるアルゴリズムを開発する。
異なる環境における実験により,アルゴリズムの正確性が確認できた。
関連論文リスト
- Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。