論文の概要: Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and Defenses
- arxiv url: http://arxiv.org/abs/2405.11206v1
- Date: Sat, 18 May 2024 07:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:57:45.852493
- Title: Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and Defenses
- Title(参考訳): ロバスト政策に向けて:敵の攻撃と防衛によるオフライン強化学習の促進
- Authors: Thanh Nguyen, Tung M. Luu, Tri Ton, Chang D. Yoo,
- Abstract要約: オフライン強化学習(RL)は、大量のオフラインデータに対する事前トレーニングポリシによって、RLに固有の高価でリスクの高いデータ探索の課題に対処する。
本稿では,先進的な敵攻撃と防御を活用して,オフラインRLモデルのロバスト性を高める枠組みを提案する。
- 参考スコア(独自算出の注目度): 19.918548094276005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) addresses the challenge of expensive and high-risk data exploration inherent in RL by pre-training policies on vast amounts of offline data, enabling direct deployment or fine-tuning in real-world environments. However, this training paradigm can compromise policy robustness, leading to degraded performance in practical conditions due to observation perturbations or intentional attacks. While adversarial attacks and defenses have been extensively studied in deep learning, their application in offline RL is limited. This paper proposes a framework to enhance the robustness of offline RL models by leveraging advanced adversarial attacks and defenses. The framework attacks the actor and critic components by perturbing observations during training and using adversarial defenses as regularization to enhance the learned policy. Four attacks and two defenses are introduced and evaluated on the D4RL benchmark. The results show the vulnerability of both the actor and critic to attacks and the effectiveness of the defenses in improving policy robustness. This framework holds promise for enhancing the reliability of offline RL models in practical scenarios.
- Abstract(参考訳): オフライン強化学習(RL)は、大量のオフラインデータに関するポリシーを事前訓練することで、RLに固有の高価でリスクの高いデータ探索の課題に対処する。
しかし、この訓練パラダイムは、政策の堅牢性を損なう可能性があるため、観測摂動や意図的な攻撃による現実的な状況における性能低下につながる。
敵の攻撃や防御はディープラーニングで広く研究されているが、オフラインRLでの応用は限られている。
本稿では,先進的な敵攻撃と防御を活用して,オフラインRLモデルのロバスト性を高める枠組みを提案する。
このフレームワークは、トレーニング中の観察を妨害し、敵防衛を正規化して学習方針を強化することによって、アクターと批評家のコンポーネントを攻撃する。
4つの攻撃と2つの防御がD4RLベンチマークで導入され評価される。
その結果,攻撃に対するアクターと批評家の両方の脆弱性と,政策の堅牢性向上における防衛の効果が示された。
このフレームワークは、実際のシナリオにおけるオフラインRLモデルの信頼性を高めることを約束している。
関連論文リスト
- Robust Deep Reinforcement Learning Through Adversarial Attacks and
Training : A Survey [8.463282079069362]
Deep Reinforcement Learning (DRL)は、さまざまな複雑な環境で自律エージェントを訓練するためのアプローチである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念が高まっている。
DRLの未知の変化に対するロバスト性を改善する方法として, 対人訓練がある。
論文 参考訳(メタデータ) (2024-03-01T10:16:46Z) - ReRoGCRL: Representation-based Robustness in Goal-Conditioned
Reinforcement Learning [29.868059421372244]
Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
まず,敵対的コントラスト攻撃に触発されたセミコントラスト表現攻撃を提案する。
次に,セミコントラスト・アジュメンテーションと感性認識正規化器を組み合わせた適応表現手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:05:55Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Adversarial jamming attacks and defense strategies via adaptive deep
reinforcement learning [12.11027948206573]
本稿では、DRLベースの動的チャネルアクセスを行う被害者ユーザと、DRLベースの妨害攻撃を実行して被害者を妨害する攻撃者について考察する。
被害者も攻撃者もDRLエージェントであり、互いに相互作用し、モデルを再訓練し、相手の方針に適応することができる。
攻撃された被害者の精度を最大化し,その性能を評価するための3つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2020-07-12T18:16:00Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Challenges and Countermeasures for Adversarial Attacks on Deep
Reinforcement Learning [48.49658986576776]
深層強化学習(Dep Reinforcement Learning, DRL)は、周囲の環境に適応する優れた能力のおかげで、現実世界に多くの応用がある。
その大きな利点にもかかわらず、DRLは現実のクリティカルシステムやアプリケーションでの使用を妨げている敵攻撃の影響を受けやすい。
本稿では,DRLベースのシステムにおける新たな攻撃と,これらの攻撃を防御するための潜在的対策について述べる。
論文 参考訳(メタデータ) (2020-01-27T10:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。