論文の概要: Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games
- arxiv url: http://arxiv.org/abs/2006.13085v5
- Date: Fri, 23 Oct 2020 15:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:56:10.063821
- Title: Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games
- Title(参考訳): 一般観測可能なマルコフゲームにおける共有平衡の校正
- Authors: Nelson Vadori and Sumitra Ganesh and Prashant Reddy and Manuela Veloso
- Abstract要約: 我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
- 参考スコア(独自算出の注目度): 15.572157454411533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training multi-agent systems (MAS) to achieve realistic equilibria gives us a
useful tool to understand and model real-world systems. We consider a general
sum partially observable Markov game where agents of different types share a
single policy network, conditioned on agent-specific information. This paper
aims at i) formally understanding equilibria reached by such agents, and ii)
matching emergent phenomena of such equilibria to real-world targets. Parameter
sharing with decentralized execution has been introduced as an efficient way to
train multiple agents using a single policy network. However, the nature of
resulting equilibria reached by such agents has not been yet studied: we
introduce the novel concept of Shared equilibrium as a symmetric pure Nash
equilibrium of a certain Functional Form Game (FFG) and prove convergence to
the latter for a certain class of games using self-play. In addition, it is
important that such equilibria satisfy certain constraints so that MAS are
calibrated to real world data for practical use: we solve this problem by
introducing a novel dual-Reinforcement Learning based approach that fits
emergent behaviors of agents in a Shared equilibrium to externally-specified
targets, and apply our methods to a n-player market example. We do so by
calibrating parameters governing distributions of agent types rather than
individual agents, which allows both behavior differentiation among agents and
coherent scaling of the shared policy network to multiple agents.
- Abstract(参考訳): リアルな平衡を達成するためのマルチエージェントシステム(MAS)の訓練は,実世界のシステムを理解し,モデル化するための有用なツールとなる。
エージェント固有の情報に基づいて,異なるタイプのエージェントが単一のポリシーネットワークを共有する,一般的な可観測的マルコフゲームを考える。
本稿の目的は
一 当該代理人が到達した平衡を正式に理解すること、及び
二 そのような平衡の創発現象を現実世界の目標と一致させること。
分散実行によるパラメータ共有は、単一のポリシーネットワークを使用して複数のエージェントを訓練する効率的な方法として導入された。
しかし、そのようなエージェントが到達した平衡の性質はまだ研究されていない: ある機能形式ゲーム(FFG)の対称純粋ナッシュ均衡として共有均衡の概念を導入し、自己プレイを用いた特定の種類のゲームに対して後者に収束することを証明する。
さらに,masを実世界のデータに校正するために,一定の制約を満たすことが重要である。我々は,エージェントの創発的挙動を外部に特定された目標と共有平衡に適合させる新しい二重強化学習ベースのアプローチを導入し,この手法をnプレイヤー市場例に適用する。
エージェント間の行動の区別と、複数のエージェントへの共有ポリシネットワークのコヒーレントなスケーリングを可能にするため、個々のエージェントではなく、エージェントタイプの分布を管理するパラメータを調整します。
関連論文リスト
- On Imperfect Recall in Multi-Agent Influence Diagrams [57.21088266396761]
マルチエージェント・インフルエンス・ダイアグラム(MAID)はベイズネットワークに基づくゲーム理論モデルとして人気がある。
混合ポリシと2種類の相関平衡を用いて, 忘れ易いエージェントと不注意なエージェントでMAIDを解く方法を示す。
また,不完全なリコールがしばしば避けられないマルコフゲームやチーム状況へのMAIDの適用についても述べる。
論文 参考訳(メタデータ) (2023-07-11T07:08:34Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Learning Individual Policies in Large Multi-agent Systems through Local
Variance Minimization [8.140037969280716]
多くのエージェントを持つマルチエージェントシステムでは、各エージェントの他のエージェントの価値への貢献は最小限である。
エージェントの値の分散を最小限に抑える新しいマルチエージェント強化学習(MARL)機構を提案する。
提案手法は, タクシー運転手の収益のばらつきを低減しつつ, 先行するアプローチよりも高いジョイント収益を提供できることを示す。
論文 参考訳(メタデータ) (2022-12-27T06:59:00Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Independent Natural Policy Gradient Methods for Potential Games:
Finite-time Global Convergence with Entropy Regularization [28.401280095467015]
本研究では,独立エントロピー規則化自然ポリシー勾配法(NPG)の有限時間収束について検討する。
提案手法は, 作用空間の大きさに依存しないサブ線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2022-04-12T01:34:02Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games [3.441021278275805]
ゲームにおける学習は、多エージェント強化学習(MARL)における最も標準的で基本的な設定であることは間違いない。
汎用近似ゲーム(SG)の重要なクラスにおいて、完全分散Q-ラーニングアルゴリズムの有限サンプル複雑性を確立する。
我々は,各エージェントが報酬や他のエージェントの行動を観察できないような,完全に分散化されたMARLの実践的かつ挑戦的な設定に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-15T03:33:39Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。