論文の概要: Data Poisoning to Fake a Nash Equilibrium in Markov Games
- arxiv url: http://arxiv.org/abs/2306.08041v2
- Date: Tue, 18 Jun 2024 08:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:23:38.626781
- Title: Data Poisoning to Fake a Nash Equilibrium in Markov Games
- Title(参考訳): マルコフのゲームでナッシュ平衡を偽造するデータ
- Authors: Young Wu, Jeremy McMahan, Xiaojin Zhu, Qiaomin Xie,
- Abstract要約: マルチエージェント強化学習(MARL)におけるオフラインデータ中毒攻撃の特徴について述べる。
我々は、一意なナッシュ集合、すなわち、それらのQ関数によって指定されたゲームの集合を提案する。
ユニークなナッシュセットは、データ中毒がセット内のすべてのプレイをプッシュした場合に限り、攻撃が成功するため、攻撃の中心となる。
- 参考スコア(独自算出の注目度): 11.36770403327493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We characterize offline data poisoning attacks on Multi-Agent Reinforcement Learning (MARL), where an attacker may change a data set in an attempt to install a (potentially fictitious) unique Markov-perfect Nash equilibrium for a two-player zero-sum Markov game. We propose the unique Nash set, namely the set of games, specified by their Q functions, with a specific joint policy being the unique Nash equilibrium. The unique Nash set is central to poisoning attacks because the attack is successful if and only if data poisoning pushes all plausible games inside the set. The unique Nash set generalizes the reward polytope commonly used in inverse reinforcement learning to MARL. For zero-sum Markov games, both the inverse Nash set and the set of plausible games induced by data are polytopes in the Q function space. We exhibit a linear program to efficiently compute the optimal poisoning attack. Our work sheds light on the structure of data poisoning attacks on offline MARL, a necessary step before one can design more robust MARL algorithms.
- Abstract(参考訳): マルチエージェント強化学習(MARL)におけるオフラインデータ中毒攻撃の特徴として,2プレイヤーゼロサムマルコフゲームに対する(潜在的に架空の)ユニークなマルコフ完全ナッシュ均衡をインストールするために,攻撃者がデータセットを変更することができる。
我々は、一意なナッシュ集合、すなわち、そのQ関数によって指定されるゲームの集合を提案し、特定の合同ポリシーが一意なナッシュ均衡である。
ユニークなナッシュセットは、データ中毒がセット内のすべてのプレイをプッシュした場合に限り、攻撃が成功するため、攻撃の中心となる。
ユニークなナッシュ集合は、MARLへの逆強化学習でよく使われる報酬ポリトープを一般化する。
ゼロサムマルコフゲームの場合、逆ナッシュ集合とデータによって誘導される可算ゲームの集合は、Q関数空間のポリトープである。
最適な毒殺攻撃を効率的に計算するための線形プログラムを提示する。
我々の研究は、より堅牢なMARLアルゴリズムを設計するために必要なステップであるオフラインMARLに対するデータ中毒攻撃の構造に光を当てています。
関連論文リスト
- Corruption-Robust Offline Two-Player Zero-Sum Markov Games [23.530166315532828]
オフライン2プレイヤーゼロサムマルコフゲームにおけるデータ破損の堅牢性について検討する。
データカバレッジと汚職の程度が異なる線形マルコフゲームにおいてこの問題を考える。
論文 参考訳(メタデータ) (2024-03-04T12:48:25Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - A Deep Reinforcement Learning Approach for Finding Non-Exploitable
Strategies in Two-Player Atari Games [35.35717637660101]
本稿では,2プレイヤーゼロサムマルコフゲーム学習のための,エンドツーエンドの深層強化学習アルゴリズムを提案する。
我々の目標は、敵対者による搾取から解放されたナッシュ均衡政策を見つけることである。
論文 参考訳(メタデータ) (2022-07-18T19:07:56Z) - When is Offline Two-Player Zero-Sum Markov Game Solvable? [48.34563955829649]
オフライン2プレイヤーゼロサムマルコフゲームにおいて,ナッシュ均衡(NE)戦略を学習するには単一戦略集中仮定が不十分であることを示す。
本稿では,一方向集中という新しい仮定を提案し,この仮定の下で有効である悲観型アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-01-10T18:34:32Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Learning to Compute Approximate Nash Equilibrium for Normal-form Games [15.321036952379488]
有限$n$-playerの正規形式ゲームに対して,Nash平衡を近似的に計算するための一般的なメタ学習手法を提案する。
ゲーム毎のナッシュ均衡をスクラッチから近似あるいは学習する既存の解とは異なり、メタソルバはゲームユーティリティ行列からジョイント戦略プロファイルへの写像を直接構築する。
論文 参考訳(メタデータ) (2021-08-17T07:06:46Z) - Computing Nash Equilibria in Multiplayer DAG-Structured Stochastic Games
with Persistent Imperfect Information [1.7132914341329848]
永続的不完全情報を持つマルチプレイヤー汎用ゲームにおいて,ナッシュ均衡を近似するアルゴリズムを提案する。
新たな手法を用いることで,本ゲームにおけるナッシュ均衡を近似した戦略をアルゴリズムで計算できることが証明できる。
論文 参考訳(メタデータ) (2020-10-26T19:27:26Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。