Fugu-MT 論文翻訳(概要): Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning

論文の概要: Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2209.14344v1
Date: Wed, 28 Sep 2022 18:14:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 18:03:32.944041
Title: Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における平衡選択のためのパレートアクタクリティカル
Authors: Filippos Christianos, Georgios Papoudakis, Stefano V. Albrecht
Abstract要約: マルチエージェントゲームにおける準最適平衡選択に対処するアクタ-クリティックアルゴリズムを提案する。我々は,PACが他のMARLアルゴリズムと比較して高いエピソジックリターンに収束することを示す。また,最大15エージェントのゲームにおいて,効率よくスケール可能なグラフニューラルネットワーク拡張を提案する。
参考スコア（独自算出の注目度）: 12.903487594031276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Equilibrium selection in multi-agent games refers to the problem of selecting a Pareto-optimal equilibrium. It has been shown that many state-of-the-art multi-agent reinforcement learning (MARL) algorithms are prone to converging to Pareto-dominated equilibria due to the uncertainty each agent has about the policy of the other agents during training. To address suboptimal equilibrium selection, we propose Pareto-AC (PAC), an actor-critic algorithm that utilises a simple principle of no-conflict games (a superset of cooperative games with identical rewards): each agent can assume the others will choose actions that will lead to a Pareto-optimal equilibrium. We evaluate PAC in a diverse set of multi-agent games and show that it converges to higher episodic returns compared to alternative MARL algorithms, as well as successfully converging to a Pareto-optimal equilibrium in a range of matrix games. Finally, we propose a graph neural network extension which is shown to efficiently scale in games with up to 15 agents.
Abstract（参考訳）: マルチエージェントゲームにおける平衡選択は、パレート最適均衡を選択する問題を指す。多くの最先端マルチエージェント強化学習(MARL)アルゴリズムは、トレーニング中に各エージェントが他のエージェントのポリシーについて持っている不確実性のため、パレート支配均衡に収束する傾向にある。準最適均衡の選択に対処するため、我々は、非競合ゲーム(同一報酬を持つ協調ゲームのスーパーセット)の単純な原理を利用するアクター批判アルゴリズムであるパレートAC(Pareto-AC)を提案する。本研究では,マルチエージェントゲームにおけるpacの評価を行い,マルチエージェントゲームにおけるpareto-optimal equilibrium (pareto-optimal equilibrium) に収束し,他のmarlアルゴリズムと比較して高いエピソディックリターンに収束することを示す。最後に,最大15エージェントのゲームにおいて,効率よくスケールできるグラフニューラルネットワーク拡張を提案する。

関連論文リスト

Enhancing Multi-Agent Collaboration with Attention-Based Actor-Critic Policies [0.0]
Team-Attention-Actor-Critic (TAAC)は、協調環境におけるマルチエージェントコラボレーションを強化するために設計された学習アルゴリズムである。シミュレーションサッカー環境におけるTAACをベンチマークアルゴリズムを用いて評価する。
論文参考訳（メタデータ） (2025-07-30T15:48:38Z)
From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium [52.28048367430481]
マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を高めることができるが、通常は計算コストと収束保証が欠如している。我々は、不完全情報ゲームとしてマルチLLMコーディネーションをリキャストし、ベイズナッシュ均衡(BNE)を求める。我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
論文参考訳（メタデータ） (2025-06-09T23:49:14Z)
Vairiational Stochastic Games [1.6703448188585752]
本稿では分散型マルチエージェントシステムに適した新しい変分推論フレームワークを提案する。我々のフレームワークは、非定常性と非整合エージェントの目的によって引き起こされる課題に対処する。提案した分散アルゴリズムに対する理論的収束保証を示す。
論文参考訳（メタデータ） (2025-03-08T03:21:23Z)
Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games [40.05960121330012]
マルチエージェント強化学習(マルチエージェント強化学習、MARL)は、共有された未知の環境におけるエージェントのグループ間の相互作用を含む多くのアプリケーションの中心に位置する。モデルパラメータの実験的推定をバイアスすることで探索のインセンティブを与える,VMGと呼ばれる新しいモデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-13T21:28:51Z)
Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文参考訳（メタデータ） (2024-07-25T14:28:58Z)
Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文参考訳（メタデータ） (2023-12-19T11:34:10Z)
Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria [0.0]
本稿では,ゲーム理論のシナリオ,すなわちIterated Prisoner's Dilemmaにおける協調を呼び起こす戦略について検討する。既存の協調戦略は、繰り返しゲームにおけるグループ指向行動を促進する効果について分析する。この研究は、指数関数的に増加するエージェント集団のシナリオにまで及んでいる。
論文参考訳（メタデータ） (2023-09-28T08:57:01Z)
A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文参考訳（メタデータ） (2023-06-12T23:48:24Z)
On the Complexity of Multi-Agent Decision Making: From Learning in Games to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文参考訳（メタデータ） (2023-05-01T06:46:22Z)
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文参考訳（メタデータ） (2023-04-20T14:47:54Z)
Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文参考訳（メタデータ） (2022-10-28T14:45:39Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文参考訳（メタデータ） (2022-07-25T18:29:16Z)
Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers [21.462231105582347]
本稿では,n-player, general-sum extensive form game におけるエージェントのトレーニングアルゴリズムを提案する。また,メタソリューションとして相関平衡(CE)を提案するとともに,新しい解法概念であるGini Correlated Equilibrium(MGCE)を提案する。 JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。
論文参考訳（メタデータ） (2021-06-17T12:34:18Z)
Calibration of Shared Equilibria in General Sum Partially Observable Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文参考訳（メタデータ） (2020-06-23T15:14:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。