論文の概要: Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.10351v2
- Date: Mon, 11 Dec 2023 02:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:58:31.698751
- Title: Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning
- Title(参考訳): 多エージェント強化学習における時空間的逐次意思決定によるstackelberg平衡誘導
- Authors: Bin Zhang, Lijuan Li, Zhiwei Xu, Dapeng Li and Guoliang Fan
- Abstract要約: 我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
- 参考スコア(独自算出の注目度): 17.101534531286298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning (MARL), self-interested agents attempt
to establish equilibrium and achieve coordination depending on game structure.
However, existing MARL approaches are mostly bound by the simultaneous actions
of all agents in the Markov game (MG) framework, and few works consider the
formation of equilibrium strategies via asynchronous action coordination. In
view of the advantages of Stackelberg equilibrium (SE) over Nash equilibrium,
we construct a spatio-temporal sequential decision-making structure derived
from the MG and propose an N-level policy model based on a conditional
hypernetwork shared by all agents. This approach allows for asymmetric training
with symmetric execution, with each agent responding optimally conditioned on
the decisions made by superior agents. Agents can learn heterogeneous SE
policies while still maintaining parameter sharing, which leads to reduced cost
for learning and storage and enhanced scalability as the number of agents
increases. Experiments demonstrate that our method effectively converges to the
SE policies in repeated matrix game scenarios, and performs admirably in
immensely complex settings including cooperative tasks and mixed tasks.
- Abstract(参考訳): マルチエージェント強化学習(marl)では、自己関心エージェントは均衡を確立し、ゲーム構造に応じて協調を図る。
しかしながら、既存のmarlアプローチは、主にマルコフゲーム(mg)フレームワークにおける全てのエージェントの同時アクションに縛られ、非同期アクションコーディネーションによる均衡戦略の形成を考える作品はほとんどない。
ナッシュ均衡に対するスタックルバーグ均衡(SE)の利点を考慮すると、MGから導かれる時空間的逐次決定構造を構築し、全てのエージェントが共有する条件付きハイパーネットワークに基づくNレベル政策モデルを提案する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
エージェントはパラメータ共有を維持しながら異種なseポリシーを学習できるため、学習とストレージのコストが削減され、エージェントの数が増えるにつれてスケーラビリティが向上する。
実験により,提案手法は繰り返し行列ゲームシナリオにおいてSEポリシーに効果的に収束し,協調タスクや混合タスクを含む極めて複雑な設定で良好に機能することが示された。
関連論文リスト
- Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Uncoupled Learning of Differential Stackelberg Equilibria with Commitments [43.098826226730246]
ゼロ階勾配推定器に基づく非結合型学習ダイナミクスを提案する。
従来の結合手法と同じ条件で、微分スタックルバーグ平衡に収束することが証明される。
また、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T12:46:54Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Pareto Actor-Critic for Equilibrium Selection in Multi-Agent
Reinforcement Learning [18.20664209675016]
この研究は、競合しないマルチエージェントゲームにおける平衡選択に焦点を当てている。
Pareto Actor-Critic (Pareto-AC)は、すべてのエージェントのリターンを最大化するアクター批判アルゴリズムである。
論文 参考訳(メタデータ) (2022-09-28T18:14:34Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。