論文の概要: On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks
- arxiv url: http://arxiv.org/abs/2405.11432v2
- Date: Fri, 30 Aug 2024 07:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 19:51:26.096636
- Title: On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks
- Title(参考訳): リプシッツ境界政策ネットワークを用いたロバスト強化学習について
- Authors: Nicholas H. Barbara, Ruigang Wang, Ian R. Manchester,
- Abstract要約: より小さなリプシッツ境界を持つポリシネットワークは、乱れやランダムノイズ、ターゲットとなる敵攻撃に対してより堅牢であることを示す。
スペクトル正規化の手法は保守的すぎるため,クリーンな性能に深刻な影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 1.1060425537315086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a study of robust policy networks in deep reinforcement learning. We investigate the benefits of policy parameterizations that naturally satisfy constraints on their Lipschitz bound, analyzing their empirical performance and robustness on two representative problems: pendulum swing-up and Atari Pong. We illustrate that policy networks with smaller Lipschitz bounds are more robust to disturbances, random noise, and targeted adversarial attacks than unconstrained policies composed of vanilla multi-layer perceptrons or convolutional neural networks. However, the structure of the Lipschitz layer is important. We find that the widely-used method of spectral normalization is too conservative and severely impacts clean performance, whereas more expressive Lipschitz layers such as the recently-proposed Sandwich layer can achieve improved robustness without sacrificing clean performance.
- Abstract(参考訳): 本稿では, 深層強化学習におけるロバストな政策ネットワークについて考察する。
リプシッツ境界上の制約を自然に満たす政策パラメータ化の利点を考察し、その経験的性能と2つの代表的な問題(振り子揺らぎとアタリポン)の堅牢性について分析する。
より小さなリプシッツ境界を持つポリシネットワークは、バニラ多層パーセプトロンや畳み込みニューラルネットワークで構成された制約のないポリシーよりも、障害、ランダムノイズ、標的敵攻撃に対して堅牢であることを示す。
しかし、リプシッツ層の構造は重要である。
最近提案したサンドウィッチ層のような表現力のあるリプシッツ層は, クリーン性能を犠牲にすることなく, 堅牢性を向上することができる。
関連論文リスト
- Novel Quadratic Constraints for Extending LipSDP beyond Slope-Restricted
Activations [52.031701581294804]
ニューラルネットワークのリプシッツ境界は、高い時間保存保証で計算できる。
このギャップを埋めて,リプシッツを傾斜制限活性化関数を超えて拡張する。
提案した解析は一般であり、$ell$ および $ell_infty$ Lipschitz 境界を推定するための統一的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-01-25T09:23:31Z) - A Recipe for Improved Certifiable Robustness [35.04363084213627]
近年の研究は、リプシッツをベースとした、敵の攻撃に対して確実に堅牢なニューラルネットワークを訓練する手法の可能性を強調している。
リプシッツに基づく認証手法の可能性を明らかにするため、より包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-04T01:18:59Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Some Fundamental Aspects about Lipschitz Continuity of Neural Networks [6.576051895863941]
リプシッツ連続性は任意の予測モデルの重要な機能特性である。
ニューラルネットワークのリプシッツ挙動を調べた。
リプシッツ下界の顕著な忠実さを示し、リプシッツ上界と下界の両方で顕著な二重発振傾向を同定し、ラベルノイズが関数の滑らかさと一般化に与える影響を説明する。
論文 参考訳(メタデータ) (2023-02-21T18:59:40Z) - Rethinking Lipschitz Neural Networks for Certified L-infinity Robustness [33.72713778392896]
我々はブール関数を表す新しい視点から、認証された$ell_infty$について研究する。
我々は、先行研究を一般化する統一的なリプシッツネットワークを開発し、効率的に訓練できる実用的なバージョンを設計する。
論文 参考訳(メタデータ) (2022-10-04T17:55:27Z) - Chordal Sparsity for Lipschitz Constant Estimation of Deep Neural
Networks [77.82638674792292]
ニューラルネットワークのリプシッツ定数は、画像分類の堅牢性、コントローラ設計の安全性、トレーニングデータを超えた一般化性を保証する。
リプシッツ定数の計算はNPハードであるため、リプシッツ定数を推定する手法はスケーラビリティと精度のトレードオフをナビゲートする必要がある。
本研究では,LipSDPと呼ばれる半定値プログラミング手法のスケーラビリティフロンティアを大幅に推し進め,精度の損失をゼロにする。
論文 参考訳(メタデータ) (2022-04-02T11:57:52Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Lipschitz Bounded Equilibrium Networks [3.2872586139884623]
本稿では、平衡ニューラルネットワーク、すなわち暗黙の方程式で定義されるネットワークの新しいパラメータ化を提案する。
新しいパラメータ化は、制約のない最適化を通じてトレーニング中にリプシッツ境界を許容する。
画像分類実験では、リプシッツ境界は非常に正確であり、敵攻撃に対する堅牢性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-10-05T01:00:40Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。