論文の概要: Your Policy Regularizer is Secretly an Adversary
- arxiv url: http://arxiv.org/abs/2203.12592v1
- Date: Wed, 23 Mar 2022 17:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 13:52:09.368583
- Title: Your Policy Regularizer is Secretly an Adversary
- Title(参考訳): ポリシーレギュレータは、秘密裏に敵だ
- Authors: Rob Brekelmans, Tim Genewein, Jordi Grau-Moya, Gr\'egoire Del\'etang,
Markus Kunesch, Shane Legg, Pedro Ortega
- Abstract要約: 報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KL-およびα-分岐正則化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
- 参考スコア(独自算出の注目度): 13.625408555732752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy regularization methods such as maximum entropy regularization are
widely used in reinforcement learning to improve the robustness of a learned
policy. In this paper, we show how this robustness arises from hedging against
worst-case perturbations of the reward function, which are chosen from a
limited set by an imagined adversary. Using convex duality, we characterize
this robust set of adversarial reward perturbations under KL- and
{\alpha}-divergence regularization, which includes Shannon and Tsallis entropy
regularization as special cases. Importantly, generalization guarantees can be
given within this robust set. We provide detailed discussion of the worst-case
reward perturbations, and present intuitive empirical examples to illustrate
this robustness and its relationship with generalization. Finally, we discuss
how our analysis complements and extends previous results on adversarial reward
robustness and path consistency optimality conditions.
- Abstract(参考訳): 強化学習では,最大エントロピー正則化などの方針正則化手法が広く用いられ,学習方針の堅牢性が向上している。
本稿では,この頑健性が,想像上の敵によって限定された集合から選択される報奨関数の最悪の摂動に対するヘッジから生じることを示す。
凸双対性を用いて、Shannon と Tsallis のエントロピー正規化を含む KL- および {\alpha} 分割正規化の下で、この頑健な対向的報酬摂動を特別な場合として特徴づける。
重要なことに、一般化の保証はこのロバストな集合内で与えられる。
我々は,最悪の場合の報酬の摂動について詳細な議論を行い,その頑健さと一般化との関係を説明するために直感的な実証例を示す。
最後に、我々の分析が、逆報酬の堅牢性および経路整合性最適条件について、過去の結果を補完し、拡張する方法について論じる。
関連論文リスト
- Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - Generalised Likelihood Ratio Testing Adversaries through the
Differential Privacy Lens [69.10072367807095]
微分プライバシー(DP)は、最適な敵の能力に厳格な上限を提供する。
我々は,NPO(Neyman-Pearson-Pearson-Pearson-Pearson-Pearson-Pearson)対GLRT(Generalized Likelihood Test)対向の仮定を緩和する。
この緩やかな緩和は、プライバシー保証の改善につながる。
論文 参考訳(メタデータ) (2022-10-24T08:24:10Z) - On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。
我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文 参考訳(メタデータ) (2022-10-12T12:49:20Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Regularized Policies are Reward Robust [33.05828095421357]
強化学習(RL)における政策の正規化の効果について検討する。
その結果,正規化目標が求める最適方針は,最悪の対向報酬の下で強化学習問題の最適方針であることがわかった。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
論文 参考訳(メタデータ) (2021-01-18T11:38:47Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - On the generalization of bayesian deep nets for multi-class
classification [27.39403411896995]
我々は,Log-Sobolevの不等式の縮約性を利用して,ベイズ深度ネットの新たな一般化を提案する。
これらの不等式を使用すると、一般化境界に損失次数ノルム項が加わり、これは直感的にはモデルの複雑性の代用である。
論文 参考訳(メタデータ) (2020-02-23T09:05:03Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。