Fugu-MT 論文翻訳(概要): RoMFAC: A robust mean-field actor-critic reinforcement learning against adversarial perturbations on states

論文の概要: RoMFAC: A robust mean-field actor-critic reinforcement learning against adversarial perturbations on states

arxiv url: http://arxiv.org/abs/2205.07229v2
Date: Wed, 31 May 2023 11:33:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 04:40:13.292408
Title: RoMFAC: A robust mean-field actor-critic reinforcement learning against adversarial perturbations on states
Title（参考訳）: RoMFAC: 国家に対する敵対的摂動に対する強靭な平均場-批評家強化学習
Authors: Ziyuan Zhou and Guanjun Liu
Abstract要約: MFAC(Mean-field Actor-Critic reinforcement learning)はマルチエージェント分野においてよく知られている。チームの報酬を著しく下げることのできる、状態の摂動に敏感です。本研究は2つのイノベーションを持つRoMFAC(Roust Mean-field Actor-Critic reinforcement learning)を提案する。
参考スコア（独自算出の注目度）: 2.5204420653245245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent deep reinforcement learning makes optimal decisions dependent on system states observed by agents, but any uncertainty on the observations may mislead agents to take wrong actions. The Mean-Field Actor-Critic reinforcement learning (MFAC) is well-known in the multi-agent field since it can effectively handle a scalability problem. However, it is sensitive to state perturbations that can significantly degrade the team rewards. This work proposes a Robust Mean-field Actor-Critic reinforcement learning (RoMFAC) that has two innovations: 1) a new objective function of training actors, composed of a \emph{policy gradient function} that is related to the expected cumulative discount reward on sampled clean states and an \emph{action loss function} that represents the difference between actions taken on clean and adversarial states; and 2) a repetitive regularization of the action loss, ensuring the trained actors to obtain excellent performance. Furthermore, this work proposes a game model named a State-Adversarial Stochastic Game (SASG). Despite the Nash equilibrium of SASG may not exist, adversarial perturbations to states in the RoMFAC are proven to be defensible based on SASG. Experimental results show that RoMFAC is robust against adversarial perturbations while maintaining its competitive performance in environments without perturbations.
Abstract（参考訳）: マルチエージェント深層強化学習は、エージェントが観察するシステム状態に依存する最適決定を下すが、観測上の不確実性はエージェントを誤った行動に導くように誤解させる可能性がある。 MFAC(Mean-Field Actor-Critic reinforcement learning)は,拡張性の問題に効果的に対処できるため,マルチエージェント分野ではよく知られている。しかし、チームの報酬を著しく下げることのできる状態の混乱に敏感です。本研究は,2つのイノベーションを持つRoMFAC(Roust Mean-field Actor-Critic reinforcement learning)を提案する。 1)サンプリングされたクリーン状態の累積割引報酬に関連する「emph{policy gradient function」と、クリーン状態と敵対状態の行動の差を表す「emph{action loss function」とからなる、トレーニングアクターの新たな客観的機能。 2) 行為損失の反復的な正規化により、訓練されたアクターが優れたパフォーマンスを得ることができる。さらに,本稿では,SASG(State-Adversarial Stochastic Game)というゲームモデルを提案する。 SASGのナッシュ平衡は存在しないかもしれないが、RoMFACの状態に対する逆の摂動はSASGに基づいて防御可能であることが証明されている。実験結果から,RoMFACは対向的摂動に対して頑健であり,摂動のない環境下での競争性能を維持していることがわかった。

関連論文リスト

MARBLE: A Multi-Agent Rule-Based LLM Reasoning Engine for Accident Severity Prediction [1.3102025155414727]
交通安全システムにおいて,事故重大度予測が重要な役割を担っている。既存の方法はしばしばモノリシックモデルやブラックボックスプロンプトに依存している。本稿では,多エージェントルールに基づくLLMエンジンを提案し,その重大性予測タスクを,専門的推論エージェントのチーム間で分解する。
論文参考訳（メタデータ） (2025-07-07T11:27:49Z)
Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [55.28518567702213]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文参考訳（メタデータ） (2025-06-09T06:35:12Z)
Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文参考訳（メタデータ） (2024-02-27T13:49:12Z)
Perturbation-Invariant Adversarial Training for Neural Ranking Models: Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで敵の例を作れますこの脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文参考訳（メタデータ） (2023-12-16T05:38:39Z)
Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization [15.11457665677937]
既存の堅牢なMARL手法は、最悪の敵に対する全ての脅威シナリオを近似または列挙する。我々は、全ての脅威シナリオにおいて、最悪の場合のロバストネスを暗黙的に最適化した、ロバストなMARLを推論問題とする。このフレームワーク内では、ルーチントレーニング中のロバスト正規化(MIR3)としての相互情報正規化が、ロバスト性の低い境界を最大化することを保証している。
論文参考訳（メタデータ） (2023-10-15T13:35:51Z)
Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk [30.229387511344456]
本稿では,CVaR を所定の閾値以下に保ち,リスクに敏感な制約付き最適化問題を定式化する CVaR-Proximal-Policy-Optimization (CPPO) の新たな強化学習アルゴリズムを提案する。実験の結果,CPPOは高い累積報酬を達成し,観察および遷移障害に対してより堅牢であることがわかった。
論文参考訳（メタデータ） (2022-06-09T11:57:54Z)
Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文参考訳（メタデータ） (2022-05-02T04:04:23Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文参考訳（メタデータ） (2021-04-29T21:03:49Z)
Robust Reinforcement Learning on State Observations with Learned Optimal Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。 DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文参考訳（メタデータ） (2021-01-21T05:38:52Z)
Rethinking Uncertainty in Deep Learning: Whether and How it Improves Robustness [20.912492996647888]
対人訓練(AT)は、クリーンな例と他の種類の攻撃の両方において、パフォーマンスの低下に悩まされる。エントロピー(EntM)やラベルスムーシング(LS)のような不確実な出力を促進する正規化器は、クリーンな例で精度を維持し、弱い攻撃下での性能を向上させることができる。本稿では,逆学習分野において,EntMやLSを含む不確実性向上レギュレータを再検討する。
論文参考訳（メタデータ） (2020-11-27T03:22:50Z)
Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文参考訳（メタデータ） (2020-10-26T04:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。