論文の概要: Model Free Reinforcement Learning Algorithm for Stationary Mean field
Equilibrium for Multiple Types of Agents
- arxiv url: http://arxiv.org/abs/2012.15377v1
- Date: Thu, 31 Dec 2020 00:12:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:18:12.762643
- Title: Model Free Reinforcement Learning Algorithm for Stationary Mean field
Equilibrium for Multiple Types of Agents
- Title(参考訳): 多種エージェントに対する定常平均場平衡のためのモデル自由強化学習アルゴリズム
- Authors: Arnob Ghosh and Vaneet Aggarwal
- Abstract要約: エージェントが複数の型を持つ無限大地平線上のマルチエージェント戦略相互作用を考える。
各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。
このような相互作用が、ディフェンダーや敵のサイバー攻撃をどうモデル化するかを示す。
- 参考スコア(独自算出の注目度): 43.21120427632336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a multi-agent Markov strategic interaction over an infinite
horizon where agents can be of multiple types. We model the strategic
interaction as a mean-field game in the asymptotic limit when the number of
agents of each type becomes infinite. Each agent has a private state; the state
evolves depending on the distribution of the state of the agents of different
types and the action of the agent. Each agent wants to maximize the discounted
sum of rewards over the infinite horizon which depends on the state of the
agent and the distribution of the state of the leaders and followers. We seek
to characterize and compute a stationary multi-type Mean field equilibrium
(MMFE) in the above game. We characterize the conditions under which a
stationary MMFE exists. Finally, we propose Reinforcement learning (RL) based
algorithm using policy gradient approach to find the stationary MMFE when the
agents are unaware of the dynamics. We, numerically, evaluate how such kind of
interaction can model the cyber attacks among defenders and adversaries, and
show how RL based algorithm can converge to an equilibrium.
- Abstract(参考訳): エージェントが複数の型を持つような無限地平線上のマルチエージェントマルコフの戦略的相互作用を考える。
我々は,各タイプのエージェント数が無限になった場合の漸近極限における平均場ゲームとして戦略的相互作用をモデル化する。
各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。
各エージェントは、エージェントの状態とリーダーとフォロワの状態の分布に依存する無限の地平線上でのディスカウントされた報酬の合計を最大化したいと考えている。
我々は,上記のゲームにおいて定常多型平均場平衡(mmfe)を特徴付け,計算する。
定常MMFEが存在する条件を特徴付ける。
最後に,政策勾配を用いた強化学習(Reinforcement Learning, RL)に基づくアルゴリズムを提案する。
我々は,このようなインタラクションがディフェンダーと敵間のサイバー攻撃をどのようにモデル化できるかを数値的に評価し,rlベースのアルゴリズムが均衡に収束するかを示す。
関連論文リスト
- Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - On Imperfect Recall in Multi-Agent Influence Diagrams [57.21088266396761]
マルチエージェント・インフルエンス・ダイアグラム(MAID)はベイズネットワークに基づくゲーム理論モデルとして人気がある。
混合ポリシと2種類の相関平衡を用いて, 忘れ易いエージェントと不注意なエージェントでMAIDを解く方法を示す。
また,不完全なリコールがしばしば避けられないマルコフゲームやチーム状況へのMAIDの適用についても述べる。
論文 参考訳(メタデータ) (2023-07-11T07:08:34Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Non-cooperative Multi-agent Systems with Exploring Agents [10.736626320566707]
マルコフゲームを用いたマルチエージェント動作の規範モデルを開発した。
エージェントが探索するが、最適戦略に近い」モデルに焦点を当てる。
論文 参考訳(メタデータ) (2020-05-25T19:34:29Z) - Multi Type Mean Field Reinforcement Learning [26.110052366068533]
平均場乗算アルゴリズムを複数のタイプに拡張する。
エージェント強化学習の分野では,3つのテストベッドで実験を行った。
論文 参考訳(メタデータ) (2020-02-06T20:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。