Fugu-MT 論文翻訳(概要): MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization

論文の概要: MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization

arxiv url: http://arxiv.org/abs/2310.09833v2
Date: Tue, 31 Oct 2023 15:49:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 22:10:52.892219
Title: MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization
Title（参考訳）: MIR2: 相互情報正規化による頑健な多エージェント強化学習を目指して
Authors: Simin Li, Ruixiao Xu, Jun Guo, Pu Feng, Jiakai Wang, Aishan Liu, Yaodong Yang, Xianglong Liu, Weifeng Lv
Abstract要約: 日常的なシナリオでポリシーを訓練し、相互情報をロバストな正規化として最小化するMIR2を提案する。私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対するレジリエンスが高い。
参考スコア（独自算出の注目度）: 39.53629344559309
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust multi-agent reinforcement learning (MARL) necessitates resilience to uncertain or worst-case actions by unknown allies. Existing max-min optimization techniques in robust MARL seek to enhance resilience by training agents against worst-case adversaries, but this becomes intractable as the number of agents grows, leading to exponentially increasing worst-case scenarios. Attempts to simplify this complexity often yield overly pessimistic policies, inadequate robustness across scenarios and high computational demands. Unlike these approaches, humans naturally learn adaptive and resilient behaviors without the necessity of preparing for every conceivable worst-case scenario. Motivated by this, we propose MIR2, which trains policy in routine scenarios and minimize Mutual Information as Robust Regularization. Theoretically, we frame robustness as an inference problem and prove that minimizing mutual information between histories and actions implicitly maximizes a lower bound on robustness under certain assumptions. Further analysis reveals that our proposed approach prevents agents from overreacting to others through an information bottleneck and aligns the policy with a robust action prior. Empirically, our MIR2 displays even greater resilience against worst-case adversaries than max-min optimization in StarCraft II, Multi-agent Mujoco and rendezvous. Our superiority is consistent when deployed in challenging real-world robot swarm control scenario. See code and demo videos in Supplementary Materials.
Abstract（参考訳）: 頑健なマルチエージェント強化学習(MARL)は、未知の同盟者による不確実または最悪の行動に対するレジリエンスを必要とする。強固なmarlにおける既存のmax-min最適化技術は、最悪のケースの敵に対するエージェントのトレーニングによるレジリエンスの向上を目標としているが、エージェントの数が増えると難易度が低下し、最悪のケースシナリオが指数関数的に増加する。この複雑さを単純化しようとする試みは、しばしば過度に悲観的なポリシー、シナリオ間の堅牢性、高い計算要求をもたらす。これらのアプローチとは異なり、人間はあらゆる最悪のシナリオに備える必要がない適応的でレジリエントな振る舞いを自然に学習する。そこで本研究では,日常的なシナリオでポリシーを訓練し,相互情報をロバスト正規化として最小化するMIR2を提案する。理論的には、ロバスト性は推論問題であり、履歴と行動の間の相互情報の最小化は、特定の仮定の下でロバスト性に対する低い境界を暗黙的に最大化する。さらに分析した結果,提案手法は情報ボトルネックを通じてエージェントが他者に対して過剰に反応することを防ぐとともに,前もって堅牢な行動とポリシーを整合させる。私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対する弾力性が高い。我々の優位は、実世界のロボット群制御シナリオに挑戦するときに一貫している。 Supplementary Materialsのコードとデモビデオを参照。

関連論文リスト

Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL [12.261657830457754]
マルチロボットシステムのタスクは、安全を維持しながら、ロボットが協力し、チームのゴールを完了する必要があることが多い。この問題は、通常、制約付きマルコフ決定プロセス(CMDP)として定式化され、これは、グローバルコストを最小化し、ユーザ定義しきい値以下に制約違反の平均値をもたらす。現実世界のロボット応用に触発されて、安全を制約違反ゼロと定義する。制約付き最適化にエピグラフ形式を用い、トレーニング安定性を改善し、各エージェントが分散方式で中央集権的なエピグラフ形式問題を解くことを証明した。この結果、Def-MARLと呼ばれる新しい集中型分散実行MARLアルゴリズムが実現した。
論文参考訳（メタデータ） (2025-04-21T20:34:55Z)
RoMA: Robust Malware Attribution via Byte-level Adversarial Training with Global Perturbations and Adversarial Consistency Regularization [17.387354788421742]
APTの敵はしばしばその正体を隠蔽し、本質的に敵意を表わす。既存の機械学習ベースの属性モデルは、効果はあるものの、敵の攻撃に対して非常に脆弱である。我々は,グローバルな摂動を統合して,拡張された対向サンプルを生成する,新しい一段階対向訓練手法であるRoMAを提案する。
論文参考訳（メタデータ） (2025-02-11T11:51:12Z)
Adversarial Robustness in Two-Stage Learning-to-Defer: Algorithms and Guarantees [3.6787328174619254]
Learning-to-Defer(L2D)は、AIシステムと意思決定者間の最適なタスク割り当てを容易にする。本稿では, 2段階のL2Dフレームワークにおいて, 対向ロバスト性の最初の包括的解析を行う。我々はベイズと$(mathcalR,mathcalG)$-consistencyをルーツとする頑健で凸なdeferralアルゴリズムであるSARDを提案する。
論文参考訳（メタデータ） (2025-02-03T03:44:35Z)
Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。 C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文参考訳（メタデータ） (2024-05-24T14:20:09Z)
Outlier Robust Adversarial Training [57.06824365801612]
本研究では,アウトリー・ロバスト・アドバイザリアル・トレーニング(ORAT)を紹介する。 ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。 ORATの学習目的はバイナリ分類における$mathcalH$-consistencyを満たすことが示され、これは敵の0/1損失に対する適切なサロゲートとして確立されている。
論文参考訳（メタデータ） (2023-09-10T21:36:38Z)
Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。 KL偏差正規化損失関数の最適化により重みを求める。提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文参考訳（メタデータ） (2023-08-01T06:16:18Z)
Robust Reinforcement Learning on State Observations with Learned Optimal Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。 DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文参考訳（メタデータ） (2021-01-21T05:38:52Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文参考訳（メタデータ） (2020-08-04T20:57:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。