論文の概要: RoMFAC: A Robust Mean-Field Actor-Critic Reinforcement Learning against
Adversarial Perturbations on States
- arxiv url: http://arxiv.org/abs/2205.07229v1
- Date: Sun, 15 May 2022 09:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 14:29:07.513832
- Title: RoMFAC: A Robust Mean-Field Actor-Critic Reinforcement Learning against
Adversarial Perturbations on States
- Title(参考訳): RoMFAC:国家に対する敵対的摂動に対するロバストな平均的アクター批判強化学習
- Authors: Ziyuan Zhou and Guanjun Liu
- Abstract要約: 平均場アクター批判強化学習(MFAC)は,スケーラビリティ問題に効果的に対処できるため,マルチエージェント分野において非常に有名である。
本稿では,2つのイノベーションを持つMFACのための堅牢な学習フレームワークRoMFACを提案する。
実験の結果,RoMFACは対向的な摂動に対して頑健であり,摂動のない環境での良好な性能を維持していることがわかった。
- 参考スコア(独自算出の注目度): 2.5204420653245245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning methods for multi-agent systems make optimal
decisions dependent on states observed by agents, but a little uncertainty on
the observations can possibly mislead agents into taking wrong actions. The
mean-field actor-critic reinforcement learning (MFAC) is very famous in the
multi-agent field since it can effectively handle the scalability problem.
However, this paper finds that it is also sensitive to state perturbations
which can significantly degrade the team rewards. This paper proposes a robust
learning framework for MFAC called RoMFAC that has two innovations: 1) a new
objective function of training actors, composed of a \emph{policy gradient
function} that is related to the expected cumulative discount reward on sampled
clean states and an \emph{action loss function} that represents the difference
between actions taken on clean and adversarial states; and 2) a repetitive
regularization of the action loss that ensures the trained actors obtain a good
performance. Furthermore, we prove that the proposed action loss function is
convergent. Experiments show that RoMFAC is robust against adversarial
perturbations while maintaining its good performance in environments without
perturbations.
- Abstract(参考訳): マルチエージェントシステムの深層強化学習法は、エージェントが観察する状態に依存する最適決定を下すが、観測に対する不確実性は、エージェントが間違った行動を取るように誤解させる可能性がある。
平均場アクター批判強化学習(MFAC)は,スケーラビリティ問題に効果的に対処できるため,マルチエージェント分野で非常に有名である。
しかし,本稿では,チーム報酬を著しく低下させる状態摂動にも敏感であることがわかった。
本稿では,2つのイノベーションを持つMFACのための堅牢な学習フレームワークRoMFACを提案する。
1)サンプリングされたクリーン状態の累積割引報酬に関連する「emph{policy gradient function」と、クリーン状態と敵対状態の行動の差を表す「emph{action loss function」とからなる、トレーニングアクターの新たな客観的機能。
2) 訓練されたアクタが良好なパフォーマンスを得るための行動損失の反復的な規則化。
さらに,提案した動作損失関数が収束していることを示す。
実験により,RoMFACは対向摂動に対して頑健であり,摂動のない環境での良好な性能を維持していることが示された。
関連論文リスト
- Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization [15.11457665677937]
既存の堅牢なMARL手法は、最悪の敵に対する全ての脅威シナリオを近似または列挙する。
我々は、全ての脅威シナリオにおいて、最悪の場合のロバストネスを暗黙的に最適化した、ロバストなMARLを推論問題とする。
このフレームワーク内では、ルーチントレーニング中のロバスト正規化(MIR3)としての相互情報正規化が、ロバスト性の低い境界を最大化することを保証している。
論文 参考訳(メタデータ) (2023-10-15T13:35:51Z) - Towards Safe Reinforcement Learning via Constraining Conditional
Value-at-Risk [30.229387511344456]
本稿では,CVaR を所定の閾値以下に保ち,リスクに敏感な制約付き最適化問題を定式化する CVaR-Proximal-Policy-Optimization (CPPO) の新たな強化学習アルゴリズムを提案する。
実験の結果,CPPOは高い累積報酬を達成し,観察および遷移障害に対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-06-09T11:57:54Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。
本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文 参考訳(メタデータ) (2021-04-29T21:03:49Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Rethinking Uncertainty in Deep Learning: Whether and How it Improves
Robustness [20.912492996647888]
対人訓練(AT)は、クリーンな例と他の種類の攻撃の両方において、パフォーマンスの低下に悩まされる。
エントロピー(EntM)やラベルスムーシング(LS)のような不確実な出力を促進する正規化器は、クリーンな例で精度を維持し、弱い攻撃下での性能を向上させることができる。
本稿では,逆学習分野において,EntMやLSを含む不確実性向上レギュレータを再検討する。
論文 参考訳(メタデータ) (2020-11-27T03:22:50Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。