論文の概要: Environment Complexity and Nash Equilibria in a Sequential Social Dilemma
- arxiv url: http://arxiv.org/abs/2408.02148v1
- Date: Sun, 4 Aug 2024 21:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 14:56:07.384855
- Title: Environment Complexity and Nash Equilibria in a Sequential Social Dilemma
- Title(参考訳): 逐次社会的ジレンマにおける環境複雑性とナッシュ均衡
- Authors: Mustafa Yasir, Andrew Howes, Vasilios Mavroudis, Chris Hicks,
- Abstract要約: 実世界のシナリオに特徴的な時間的・空間的ダイナミクスをモデル化するには,行列ゲームのソーシャルジレンマが不十分であることを示す。
我々は,一発マトリクスゲームの決定空間により密接に一致するように,スタッグハントジレンマのグリッドワールド実装を適用した。
以上の結果から,これらの環境下で訓練されたMARLエージェントは,複雑性が増大するにつれて,準最適戦略に収束することが示唆された。
- 参考スコア(独自算出の注目度): 7.787211625411274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) methods, while effective in zero-sum or positive-sum games, often yield suboptimal outcomes in general-sum games where cooperation is essential for achieving globally optimal outcomes. Matrix game social dilemmas, which abstract key aspects of general-sum interactions, such as cooperation, risk, and trust, fail to model the temporal and spatial dynamics characteristic of real-world scenarios. In response, our study extends matrix game social dilemmas into more complex, higher-dimensional MARL environments. We adapt a gridworld implementation of the Stag Hunt dilemma to more closely match the decision-space of a one-shot matrix game while also introducing variable environment complexity. Our findings indicate that as complexity increases, MARL agents trained in these environments converge to suboptimal strategies, consistent with the risk-dominant Nash equilibria strategies found in matrix games. Our work highlights the impact of environment complexity on achieving optimal outcomes in higher-dimensional game-theoretic MARL environments.
- Abstract(参考訳): マルチエージェント強化学習(MARL)法は、ゼロサムゲームや正サムゲームでは有効であるが、大域的に最適な結果を達成するために協力が不可欠である一般サムゲームでは、しばしば準最適結果が得られる。
マトリックスゲーム社会ジレンマ(英: Matrix game social dilemmas)は、協調、リスク、信頼などの一般の相互作用の主要な側面を抽象化し、現実世界のシナリオの特徴である時間的・空間的ダイナミクスをモデル化することができない。
本研究は,行列ゲーム社会ジレンマを,より複雑で高次元のMARL環境に拡張する。
本研究では,一発マトリクスゲームにおける決定空間とより密に一致し,変動環境の複雑さももたらしたStag Huntジレンマのグリッドワールド実装を適用する。
以上の結果から,これらの環境下で訓練されたMARLエージェントは,複雑性が増大するにつれて,マトリックスゲームにおけるリスク支配的ナッシュ均衡戦略と整合して,最適以下の戦略に収束することが示唆された。
我々の研究は、高次元ゲーム理論MARL環境における最適な結果を達成するための環境複雑さの影響を強調した。
関連論文リスト
- Learning in Multi-Objective Public Goods Games with Non-Linear Utilities [8.243788683895376]
我々は,エージェントが異なるリスク嗜好を持つ,新しい多目的型Public Goods Gameの学習について研究する。
このような嗜好モデルと環境不確実性の間の相互作用をゲーム内のインセンティブアライメントレベルにおいて検討する。
論文 参考訳(メタデータ) (2024-08-01T16:24:37Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。