論文の概要: Towards Robust Deep Reinforcement Learning against Environmental State Perturbation
- arxiv url: http://arxiv.org/abs/2506.08961v1
- Date: Tue, 10 Jun 2025 16:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.86551
- Title: Towards Robust Deep Reinforcement Learning against Environmental State Perturbation
- Title(参考訳): 環境摂動に対するロバストな深層強化学習を目指して
- Authors: Chenxu Wang, Huaping Liu,
- Abstract要約: 深層強化学習(DRL)における敵対的攻撃と堅牢性は、様々な脅威モデルにおいて広く研究されている。
本研究では, キャリブレーション対策として, 非標的攻撃方式を導入し, 環境変動の問題を定式化する。
そこで我々は,破滅的な失敗を避けるため,まず指導的学習を通じてエージェントを調整し,その後,強化学習でエージェントを逆さまに訓練する防衛フレームワーク,Boosted Adversarial Training (BAT)を提案する。
- 参考スコア(独自算出の注目度): 13.811628977069029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks and robustness in Deep Reinforcement Learning (DRL) have been widely studied in various threat models; however, few consider environmental state perturbations, which are natural in embodied scenarios. To improve the robustness of DRL agents, we formulate the problem of environmental state perturbation, introducing a preliminary non-targeted attack method as a calibration adversary, and then propose a defense framework, named Boosted Adversarial Training (BAT), which first tunes the agents via supervised learning to avoid catastrophic failure and subsequently adversarially trains the agent with reinforcement learning. Extensive experimental results substantiate the vulnerability of mainstream agents under environmental state perturbations and the effectiveness of our proposed attack. The defense results demonstrate that while existing robust reinforcement learning algorithms may not be suitable, our BAT framework can significantly enhance the robustness of agents against environmental state perturbations across various situations.
- Abstract(参考訳): 深層強化学習(DRL)における敵対的攻撃と堅牢性は、様々な脅威モデルにおいて広く研究されているが、実施シナリオにおいて自然に発生する環境状態の摂動を考えることは少ない。
DRLエージェントのロバスト性を改善するために,予備的な非標的攻撃法を校正の敵として導入し,まず,破壊的失敗を避けるために教師付き学習を通じてエージェントを調整し,その後,強化学習でエージェントを逆さまに訓練する防衛フレームワーク,Boosted Adversarial Training (BAT)を提案する。
大規模実験により, 環境条件下でのメインストリームエージェントの脆弱性と, 提案した攻撃の有効性を実証した。
その結果,既存の頑健な強化学習アルゴリズムは適さないが,BATフレームワークは環境変動に対するエージェントの堅牢性を大幅に向上させることができることがわかった。
関連論文リスト
- Robust Deep Reinforcement Learning in Robotics via Adaptive Gradient-Masked Adversarial Attacks [15.825229211045647]
本稿では、DRLとグラデーションベースのソフトマスキング機構を組み合わせたホワイトボックス攻撃手法であるAGMRアタックを提案し、臨界状態次元を動的に識別し、敵のポリシーを最適化する。
AGMRは、被害者エージェントのパフォーマンスを低下させ、敵防御機構を通じて被害者エージェントの堅牢性を高める、最先端の敵攻撃方法より優れる。
論文 参考訳(メタデータ) (2025-03-26T15:08:58Z) - State-Aware Perturbation Optimization for Robust Deep Reinforcement Learning [11.807055530003899]
摂動ステルスネスと状態訪問分散を最適化するために,STARと命名された選択的状態認識強化敵攻撃法を提案する。
情報理論最適化の目的を取り入れ、摂動、環境状態、被害者の行動の相互情報を最大化し、分散した状態・視線分布を確保する。
実験により、STARは最先端のベンチマークより優れていることが示された。
論文 参考訳(メタデータ) (2025-03-26T15:00:07Z) - Robust Deep Reinforcement Learning Through Adversarial Attacks and Training : A Survey [8.1138182541639]
Deep Reinforcement Learning (DRL)は、複雑な環境を横断してシーケンシャルなアクションをとる自律エージェントを訓練するための機械学習のサブフィールドである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念を高めている。
DRLのロバスト性向上手法として, 環境条件の未知の変化と摂動の可能性について考察する。
論文 参考訳(メタデータ) (2024-03-01T10:16:46Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。