論文の概要: On Imperfect Recall in Multi-Agent Influence Diagrams
- arxiv url: http://arxiv.org/abs/2307.05059v1
- Date: Tue, 11 Jul 2023 07:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 16:02:12.476226
- Title: On Imperfect Recall in Multi-Agent Influence Diagrams
- Title(参考訳): マルチエージェント影響図における不完全なリコールについて
- Authors: James Fox, Matt MacDermott, Lewis Hammond, Paul Harrenstein,
Alessandro Abate, Michael Wooldridge
- Abstract要約: マルチエージェント・インフルエンス・ダイアグラム(MAID)はベイズネットワークに基づくゲーム理論モデルとして人気がある。
混合ポリシと2種類の相関平衡を用いて, 忘れ易いエージェントと不注意なエージェントでMAIDを解く方法を示す。
また,不完全なリコールがしばしば避けられないマルコフゲームやチーム状況へのMAIDの適用についても述べる。
- 参考スコア(独自算出の注目度): 57.21088266396761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent influence diagrams (MAIDs) are a popular game-theoretic model
based on Bayesian networks. In some settings, MAIDs offer significant
advantages over extensive-form game representations. Previous work on MAIDs has
assumed that agents employ behavioural policies, which set independent
conditional probability distributions over actions for each of their decisions.
In settings with imperfect recall, however, a Nash equilibrium in behavioural
policies may not exist. We overcome this by showing how to solve MAIDs with
forgetful and absent-minded agents using mixed policies and two types of
correlated equilibrium. We also analyse the computational complexity of key
decision problems in MAIDs, and explore tractable cases. Finally, we describe
applications of MAIDs to Markov games and team situations, where imperfect
recall is often unavoidable.
- Abstract(参考訳): マルチエージェント・インフルエンス・ダイアグラム(MAID)はベイズネットワークに基づくゲーム理論モデルである。
いくつかの設定では、MAIDは広範な形式のゲーム表現よりも大きなアドバンテージを提供する。
MAIDに関する以前の研究では、エージェントは行動ポリシーを採用しており、それぞれの決定に対するアクションに対して独立した条件付き確率分布を設定する。
しかし、不完全なリコールのある環境では、行動政策におけるナッシュ均衡は存在しないかもしれない。
我々は、混合ポリシーと2種類の相関平衡を用いて、忘れられた、不注意なエージェントによるMAIDの解法を示すことで、この問題を克服する。
また,maidsにおける鍵決定問題の計算複雑性を分析し,扱いやすいケースを探索する。
最後に,不完全なリコールがしばしば避けられないマルコフゲームやチーム状況へのMAIDの適用について述べる。
関連論文リスト
- Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and
Practice [62.58588499193303]
マルチエージェント・インフルエンス・ダイアグラム(MAID)はグラフィカル・モデルの一般的な形式であり、特定のクラスのゲームに対して、従来の拡張形式ゲーム(EFG)表現よりも重要な複雑さと説明可能性の利点が示されている。
我々は、MAIDサブゲームの概念を導入し、サブゲームパーフェクトとハンドパーフェクトの均衡改善を導入することで、MAIDに関する以前の研究を拡張した。
論文 参考訳(メタデータ) (2021-02-09T18:20:50Z) - Model Free Reinforcement Learning Algorithm for Stationary Mean field
Equilibrium for Multiple Types of Agents [43.21120427632336]
エージェントが複数の型を持つ無限大地平線上のマルチエージェント戦略相互作用を考える。
各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。
このような相互作用が、ディフェンダーや敵のサイバー攻撃をどうモデル化するかを示す。
論文 参考訳(メタデータ) (2020-12-31T00:12:46Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。