論文の概要: On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks
- arxiv url: http://arxiv.org/abs/2405.11432v1
- Date: Sun, 19 May 2024 03:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:37:55.875543
- Title: On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks
- Title(参考訳): リプシッツ境界政策ネットワークを用いたロバスト強化学習について
- Authors: Nicholas H. Barbara, Ruigang Wang, Ian R. Manchester,
- Abstract要約: リプシッツ境界上の制約を自然に満たす政策パラメータ化の利点について検討する。
我々は、小さなリプシッツ境界を持つ政策ネットワークが、乱れやランダムノイズ、標的となる敵攻撃に対して、はるかに堅牢であることを示す。
- 参考スコア(独自算出の注目度): 1.1060425537315086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a study of robust policy networks in deep reinforcement learning. We investigate the benefits of policy parameterizations that naturally satisfy constraints on their Lipschitz bound, analyzing their empirical performance and robustness on two representative problems: pendulum swing-up and Atari Pong. We illustrate that policy networks with small Lipschitz bounds are significantly more robust to disturbances, random noise, and targeted adversarial attacks than unconstrained policies composed of vanilla multi-layer perceptrons or convolutional neural networks. Moreover, we find that choosing a policy parameterization with a non-conservative Lipschitz bound and an expressive, nonlinear layer architecture gives the user much finer control over the performance-robustness trade-off than existing state-of-the-art methods based on spectral normalization.
- Abstract(参考訳): 本稿では, 深層強化学習におけるロバストな政策ネットワークについて考察する。
リプシッツ境界上の制約を自然に満たす政策パラメータ化の利点を考察し、その経験的性能と2つの代表的な問題(振り子揺らぎとアタリポン)の堅牢性について分析する。
そこで本研究では,小さなリプシッツ境界を持つポリシネットワークが,バニラ多層パーセプトロンや畳み込みニューラルネットワークで構成された制約のないポリシよりも,障害やランダムノイズ,ターゲットの敵攻撃に対して著しく堅牢であることを示す。
さらに,非保守的なリプシッツ境界と表現性のある非線形層アーキテクチャによるポリシーパラメータ化を選択することで,スペクトル正規化に基づく既存の最先端手法よりも,ユーザによる性能損益性トレードオフの制御がよりきめ細やかになることがわかった。
関連論文リスト
- Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report [1.4201040196058878]
本研究は,従来の深層強化学習法に代わるオンライン深層強化学習制御(ODRLC)を提案する。
ODRLCはオンラインインタラクションを使用してキューイングネットワーク(SQN)の最適制御ポリシーを学習する
本稿では、ネットワークの安定性を確保するために、これらの介入支援ポリシーを設計する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:02:04Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Some Fundamental Aspects about Lipschitz Continuity of Neural Networks [6.576051895863941]
リプシッツ連続性は任意の予測モデルの重要な機能特性である。
ニューラルネットワークのリプシッツ挙動を調べた。
リプシッツ下界の顕著な忠実さを示し、リプシッツ上界と下界の両方で顕著な二重発振傾向を同定し、ラベルノイズが関数の滑らかさと一般化に与える影響を説明する。
論文 参考訳(メタデータ) (2023-02-21T18:59:40Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - Adversarial robustness of sparse local Lipschitz predictors [12.525959293825318]
本研究では、線形予測器と非線形表現写像からなるパラメトリック関数の対角ロバスト性について研究する。
緩やかな局所リプシッツネスを用いて安定性を把握し、局所摂動による予測器の有効次元を減少させる。
論文 参考訳(メタデータ) (2022-02-26T19:48:07Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Lipschitz Bounded Equilibrium Networks [3.2872586139884623]
本稿では、平衡ニューラルネットワーク、すなわち暗黙の方程式で定義されるネットワークの新しいパラメータ化を提案する。
新しいパラメータ化は、制約のない最適化を通じてトレーニング中にリプシッツ境界を許容する。
画像分類実験では、リプシッツ境界は非常に正確であり、敵攻撃に対する堅牢性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-10-05T01:00:40Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。