論文の概要: Aggregate Fictitious Play for Learning in Anonymous Polymatrix Games (Extended Version)
- arxiv url: http://arxiv.org/abs/2508.19371v1
- Date: Tue, 26 Aug 2025 19:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.404218
- Title: Aggregate Fictitious Play for Learning in Anonymous Polymatrix Games (Extended Version)
- Title(参考訳): Anonymous Polymatrix Games (Extended Version) における学習のための集約的遊び
- Authors: Semih Kara, Tamer Başar,
- Abstract要約: Fictitious Play (FP) は、エージェントが特定の報酬構造を持つゲームでナッシュ均衡を学習できるようにするアルゴリズムである。
FPの変種であるアグリゲート・フィクション・プレイ(agg-FP)を導入し、各エージェントが各アクションを再生する他のエージェントの頻度を追跡する。
匿名ポリマトリクスゲームにおいて、gg-FPは古典的FPと同じ条件下でナッシュ平衡に収束することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fictitious play (FP) is a well-studied algorithm that enables agents to learn Nash equilibrium in games with certain reward structures. However, when agents have no prior knowledge of the reward functions, FP faces a major challenge: the joint action space grows exponentially with the number of agents, which slows down reward exploration. Anonymous games offer a structure that mitigates this issue. In these games, the rewards depend only on the actions taken; not on who is taking which action. Under such a structure, we introduce aggregate fictitious play (agg-FP), a variant of FP where each agent tracks the frequency of the number of other agents playing each action, rather than these agents' individual actions. We show that in anonymous polymatrix games, agg-FP converges to a Nash equilibrium under the same conditions as classical FP. In essence, by aggregating the agents' actions, we reduce the action space without losing the convergence guarantees. Using simulations, we provide empirical evidence on how this reduction accelerates convergence.
- Abstract(参考訳): Fictitious Play (FP) は、エージェントが特定の報酬構造を持つゲームでナッシュ均衡を学習できるようにする、よく研究されたアルゴリズムである。
しかし、エージェントが報酬関数について事前の知識を持っていない場合、FPは大きな課題に直面している。
匿名ゲームはこの問題を緩和する構造を提供する。
これらのゲームでは、報酬は取られた行動にのみ依存する。
このような構造の下では、各エージェントがそれぞれのアクションを行う他のエージェントの頻度を追跡するFPの変種であるアグリゲート・フィクション・プレイ(agg-FP)を導入する。
匿名ポリマトリクスゲームにおいて、gg-FPは古典的FPと同じ条件下でナッシュ平衡に収束することを示す。
本質的に、エージェントのアクションを集約することで、収束保証を失うことなくアクション空間を縮小する。
シミュレーションを用いて、この還元が収束を加速する経験的証拠を提供する。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - On the Convergence of Fictitious Play: A Decomposition Approach [17.607284715519587]
我々は、FP(Fictitious Play)の収束結果を、そのようなゲームとそれ以上の組み合わせに拡張する。
我々は,この2種類のゲームが相互に移動可能であるという意味で,協調と競争を統一する線形関係を構築している。
我々は、FPの非収束例であるShapleyゲームを分析し、FPが収束するのに十分な条件を開発する。
論文 参考訳(メタデータ) (2022-05-03T13:04:09Z) - Adversarial Online Learning with Variable Plays in the Pursuit-Evasion
Game: Theoretical Foundations and Application in Connected and Automated
Vehicle Cybersecurity [5.9774834479750805]
対戦型・非確率型マルチアームバンディット(MPMAB)は,演奏するアームの数が変動している場合に拡張する。
この作業は、相互接続された輸送システムにおいて、異なる重要な場所をスキャンするために割り当てられたリソースが、時間とともに、環境によって動的に変化するという事実によって動機付けられている。
論文 参考訳(メタデータ) (2021-10-26T23:09:42Z) - Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games [0.0]
2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
論文 参考訳(メタデータ) (2021-10-10T16:03:44Z) - Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。
本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文 参考訳(メタデータ) (2021-04-29T21:03:49Z) - Scaling up Mean Field Games with Online Mirror Descent [55.36153467919289]
オンラインミラー Descent (OMD) を用いた平均場ゲーム (MFG) のスケールアップ均衡計算に対処する。
連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。
様々な単一および多集団MFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2021-02-28T21:28:36Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。