論文の概要: Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents
- arxiv url: http://arxiv.org/abs/2406.18062v1
- Date: Wed, 26 Jun 2024 04:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:38:19.380371
- Title: Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents
- Title(参考訳): バリアを破る:スムースDRL剤の有用性とロバスト性
- Authors: Chung-En Sun, Sicun Gao, Tsui-Wei Weng,
- Abstract要約: 本稿では,S-DQNとS-PPOを提案する。これは,標準RLベンチマークにおけるクリーン報酬,経験的ロバスト性,ロバスト性保証の顕著な改善を示す新しいアプローチである。
S-DQNとS-PPOのエージェントは、最強の攻撃を受けた場合の平均的な2.16倍の力強い訓練を受けたエージェントを上回った。
Smoothed Attackも紹介します。これは既存の敵攻撃よりもスムーズなエージェントの報酬を減らすのに効果的です。
- 参考スコア(独自算出の注目度): 24.671056186761263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustness remains a paramount concern in deep reinforcement learning (DRL), with randomized smoothing emerging as a key technique for enhancing this attribute. However, a notable gap exists in the performance of current smoothed DRL agents, often characterized by significantly low clean rewards and weak robustness. In response to this challenge, our study introduces innovative algorithms aimed at training effective smoothed robust DRL agents. We propose S-DQN and S-PPO, novel approaches that demonstrate remarkable improvements in clean rewards, empirical robustness, and robustness guarantee across standard RL benchmarks. Notably, our S-DQN and S-PPO agents not only significantly outperform existing smoothed agents by an average factor of $2.16\times$ under the strongest attack, but also surpass previous robustly-trained agents by an average factor of $2.13\times$. This represents a significant leap forward in the field. Furthermore, we introduce Smoothed Attack, which is $1.89\times$ more effective in decreasing the rewards of smoothed agents than existing adversarial attacks.
- Abstract(参考訳): 深い強化学習(DRL)において、ロバスト性は依然として最重要課題であり、この属性を強化する重要な手法としてランダム化スムージングが出現する。
しかしながら、現在のスムーズなDRL剤の性能には顕著なギャップがあり、しばしば非常に低い清潔な報酬と弱い堅牢さによって特徴づけられる。
本研究は, 有効なスムーズなDRLエージェントの訓練を目的とした, 革新的なアルゴリズムを提案する。
本稿では,S-DQNとS-PPOを提案する。これは,標準RLベンチマークにおけるクリーン報酬,経験的ロバスト性,ロバスト性保証の顕著な改善を示す新しいアプローチである。
特に、我々のS-DQNおよびS-PPOエージェントは、最強攻撃の下で、既存の滑らかなエージェントを平均2.16\times$で大幅に上回るだけでなく、以前の堅牢なトレーニングされたエージェントを平均2.13\times$で上回る。
これはこの分野における大きな飛躍を表している。
さらに、Smoothed Attackを導入します。これは、既存の敵攻撃よりもスムーズなエージェントの報酬を減らすのに、より効果的です。
関連論文リスト
- Boosting Certificate Robustness for Time Series Classification with Efficient Self-Ensemble [10.63844868166531]
ランダム化 Smoothing は $ell_p$-ball 攻撃下でのロバストネス半径の証明可能な下界を証明できるため、スタンドアウト手法として登場した。
本稿では,分類マージンのばらつきを低減し,予測ラベルの確率信頼度を低くする自己アンサンブル手法を提案する。
このアプローチはまた、Deep Ensemble(DE)の計算オーバーヘッド問題にも対処し、競争力を維持しつつ、頑健性の観点からも性能を上回っている。
論文 参考訳(メタデータ) (2024-09-04T15:22:08Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Rethinking Uncertainty in Deep Learning: Whether and How it Improves
Robustness [20.912492996647888]
対人訓練(AT)は、クリーンな例と他の種類の攻撃の両方において、パフォーマンスの低下に悩まされる。
エントロピー(EntM)やラベルスムーシング(LS)のような不確実な出力を促進する正規化器は、クリーンな例で精度を維持し、弱い攻撃下での性能を向上させることができる。
本稿では,逆学習分野において,EntMやLSを含む不確実性向上レギュレータを再検討する。
論文 参考訳(メタデータ) (2020-11-27T03:22:50Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Adversarial robustness via robust low rank representations [44.41534627858075]
本研究では、画像などの実データに対してしばしば存在する自然な下級表現の利点を強調する。
低ランクデータ表現を利用して、最先端のランダム化スムーシングに基づくアプローチに対する保証を改善する。
第二の貢献は、$ell_infty$ normで測定された摂動に対する証明された堅牢性のより困難な設定である。
論文 参考訳(メタデータ) (2020-07-13T17:57:00Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。