論文の概要: Towards Optimal Adversarial Robust Reinforcement Learning with Infinity Measurement Error
- arxiv url: http://arxiv.org/abs/2502.16734v1
- Date: Sun, 23 Feb 2025 22:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:12.313806
- Title: Towards Optimal Adversarial Robust Reinforcement Learning with Infinity Measurement Error
- Title(参考訳): 無限測定誤差を考慮した最適対向ロバスト強化学習に向けて
- Authors: Haoran Li, Zicheng Zhang, Wang Luo, Congying Han, Jiayu Lv, Tiande Guo, Yudong Hu,
- Abstract要約: 近年の研究は、国家の敵対的堅牢性を達成する上での課題を浮き彫りにしている。
内向的状態適応型マルコフ決定プロセス(ISA-MDP)について紹介する。
DRLの堅牢性の向上は自然環境における性能を損なうものではないことを示す。
- 参考スコア(独自算出の注目度): 9.473089575932375
- License:
- Abstract: Ensuring the robustness of deep reinforcement learning (DRL) agents against adversarial attacks is critical for their trustworthy deployment. Recent research highlights the challenges of achieving state-adversarial robustness and suggests that an optimal robust policy (ORP) does not always exist, complicating the enforcement of strict robustness constraints. In this paper, we further explore the concept of ORP. We first introduce the Intrinsic State-adversarial Markov Decision Process (ISA-MDP), a novel formulation where adversaries cannot fundamentally alter the intrinsic nature of state observations. ISA-MDP, supported by empirical and theoretical evidence, universally characterizes decision-making under state-adversarial paradigms. We rigorously prove that within ISA-MDP, a deterministic and stationary ORP exists, aligning with the Bellman optimal policy. Our findings theoretically reveal that improving DRL robustness does not necessarily compromise performance in natural environments. Furthermore, we demonstrate the necessity of infinity measurement error (IME) in both $Q$-function and probability spaces to achieve ORP, unveiling vulnerabilities of previous DRL algorithms that rely on $1$-measurement errors. Motivated by these insights, we develop the Consistent Adversarial Robust Reinforcement Learning (CAR-RL) framework, which optimizes surrogates of IME. We apply CAR-RL to both value-based and policy-based DRL algorithms, achieving superior performance and validating our theoretical analysis.
- Abstract(参考訳): 敵の攻撃に対する深層強化学習(DRL)エージェントの堅牢性を確保することは、その信頼性の高い配備に不可欠である。
近年の研究では、国家と対立するロバスト性を達成する上での課題を強調し、厳密なロバスト性制約の実施を複雑にする最適ロバスト政策(ORP)が常に存在するとは限らないことを示唆している。
本稿では,ORPの概念をさらに探求する。
我々はまず,本質的な状態観察の本質的な性質を根本的に変えることができない新しい定式化である,内在的状態適応型マルコフ決定過程(ISA-MDP)を紹介した。
ISA-MDPは経験的および理論的な証拠によって支持され、国家と対立するパラダイムの下での意思決定を普遍的に特徴づける。
我々は,ISA-MDP 内に決定論的かつ定常な ORP が存在することを厳密に証明し,ベルマンの最適方針と整合する。
本研究は,DRLの堅牢性向上が自然環境における性能を損なうとは限らないことを理論的に明らかにした。
さらに、ORPを実現するために、$Q$関数と確率空間の両方において、インフィニティ測定誤差(IME)の必要性を実証し、1$$$測定誤差に依存する従来のDRLアルゴリズムの脆弱性を明らかにする。
これらの知見に触発されて、IMEのサロゲートを最適化するConsistent Adversarial Robust Reinforcement Learning (CAR-RL) フレームワークを開発した。
CAR-RLを値ベースとポリシーベースの両方のDRLアルゴリズムに適用し、優れた性能を実現し、理論解析を検証した。
関連論文リスト
- Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Towards Optimal Adversarial Robust Q-learning with Bellman Infinity-error [9.473089575932375]
最近の研究は、国家の敵対的ロバスト性を探究し、最適ロバスト政策(ORP)の潜在的な欠如を示唆している。
我々はベルマン最適政策に適合する決定論的かつ定常なORPの存在を証明した。
この発見は、ベルマン・インフィニティ・エラーのサロゲートを最小限にして、一貫性のある敵対的ロバスト深度Q-Network(CAR-DQN)を訓練する動機となる。
論文 参考訳(メタデータ) (2024-02-03T14:25:33Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。