Fugu-MT 論文翻訳(概要): What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning?

論文の概要: What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning?

arxiv url: http://arxiv.org/abs/2212.02705v5
Date: Fri, 12 Apr 2024 17:58:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 20:25:38.987416
Title: What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning?
Title（参考訳）: 国家逆転型マルチエージェント強化学習の解決策とは何か?
Authors: Songyang Han, Sanbao Su, Sihong He, Shuo Han, Haizhao Yang, Shaofeng Zou, Fei Miao,
Abstract要約: Deep Reinforcement Learning (DRL)を通じて学んだ政策は、敵国の摂動攻撃に影響を受けやすい。本稿では,国家逆境マルコフゲーム (SAMG) を提案するとともに,MARL の異なる解概念を状態不確実性の下で研究する試みを行う。
参考スコア（独自算出の注目度）: 22.863241480702012
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various methods for Multi-Agent Reinforcement Learning (MARL) have been developed with the assumption that agents' policies are based on accurate state information. However, policies learned through Deep Reinforcement Learning (DRL) are susceptible to adversarial state perturbation attacks. In this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to investigate different solution concepts of MARL under state uncertainties. Our analysis shows that the commonly used solution concepts of optimal agent policy and robust Nash equilibrium do not always exist in SAMGs. To circumvent this difficulty, we consider a new solution concept called robust agent policy, where agents aim to maximize the worst-case expected state value. We prove the existence of robust agent policy for finite state and finite action SAMGs. Additionally, we propose a Robust Multi-Agent Adversarial Actor-Critic (RMA3C) algorithm to learn robust policies for MARL agents under state uncertainties. Our experiments demonstrate that our algorithm outperforms existing methods when faced with state perturbations and greatly improves the robustness of MARL policies. Our code is public on https://songyanghan.github.io/what_is_solution/.
Abstract（参考訳）: MARL(Multi-Agent Reinforcement Learning)は,エージェントのポリシーが正確な状態情報に基づいていることを前提として,様々な手法が開発されている。しかし、Deep Reinforcement Learning (DRL)を通じて学んだ政策は、敵国の摂動攻撃に影響を受けやすい。本研究では,状態不確実性下でのMARLの異なる解概念を初めて検討する,国家支援マルコフゲーム(SAMG)を提案する。我々の分析は、最適エージェントポリシーとロバストなナッシュ均衡の概念がSAMGに常に存在するわけではないことを示している。この困難を回避するために,エージェントが最悪の状態値の最大化を目指す,ロバストエージェントポリシーと呼ばれる新しいソリューションを考察する。有限状態および有限動作SAMGに対するロバストエージェントポリシーの存在を証明する。さらに、状態不確実性の下でMARLエージェントの堅牢なポリシーを学習するためのロバストマルチエージェント・アクター・クリティカル(RMA3C)アルゴリズムを提案する。実験により,我々のアルゴリズムは状態摂動に直面する場合,既存の手法よりも優れており,MARLポリシーの堅牢性を大幅に向上することが示された。私たちのコードはhttps://songyanghan.github.io/what_is_solution/で公開されています。

関連論文リスト

Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-08-11T09:18:34Z)
Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium [6.169364905804677]
マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。 MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
論文参考訳（メタデータ） (2024-11-22T16:08:42Z)
Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-06T20:52:49Z)
Robust Multi-Agent Reinforcement Learning via Adversarial Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。 MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文参考訳（メタデータ） (2023-10-16T20:14:06Z)
Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文参考訳（メタデータ） (2023-07-30T12:31:42Z)
Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文参考訳（メタデータ） (2023-06-13T13:08:31Z)
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文参考訳（メタデータ） (2022-05-11T00:06:29Z)
On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-11-10T23:45:08Z)
Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文参考訳（メタデータ） (2021-09-23T09:44:35Z)
Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文参考訳（メタデータ） (2020-06-15T19:24:02Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。