論文の概要: Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics
- arxiv url: http://arxiv.org/abs/2502.14724v1
- Date: Thu, 20 Feb 2025 16:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:34.014264
- Title: Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics
- Title(参考訳): 進化的ダイナミクスを用いたダイナミックゲームにおけるランキング付きジョイントポリシー
- Authors: Natalia Koliou, George Vouros,
- Abstract要約: 単純な2プレイヤーゲームでもエージェントの相互作用のダイナミクスはナッシュ平衡に達することができないことが示されている。
我々のゴールは、安定した行動をもたらすエージェントの合同戦略を特定し、変化に抵抗すると同時に、エージェントの支払いも考慮することである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Game-theoretic solution concepts, such as the Nash equilibrium, have been key to finding stable joint actions in multi-player games. However, it has been shown that the dynamics of agents' interactions, even in simple two-player games with few strategies, are incapable of reaching Nash equilibria, exhibiting complex and unpredictable behavior. Instead, evolutionary approaches can describe the long-term persistence of strategies and filter out transient ones, accounting for the long-term dynamics of agents' interactions. Our goal is to identify agents' joint strategies that result in stable behavior, being resistant to changes, while also accounting for agents' payoffs, in dynamic games. Towards this goal, and building on previous results, this paper proposes transforming dynamic games into their empirical forms by considering agents' strategies instead of agents' actions, and applying the evolutionary methodology $\alpha$-Rank to evaluate and rank strategy profiles according to their long-term dynamics. This methodology not only allows us to identify joint strategies that are strong through agents' long-term interactions, but also provides a descriptive, transparent framework regarding the high ranking of these strategies. Experiments report on agents that aim to collaboratively solve a stochastic version of the graph coloring problem. We consider different styles of play as strategies to define the empirical game, and train policies realizing these strategies, using the DQN algorithm. Then we run simulations to generate the payoff matrix required by $\alpha$-Rank to rank joint strategies.
- Abstract(参考訳): ナッシュ均衡のようなゲーム理論の解の概念は、マルチプレイヤーゲームにおいて安定なジョイントアクションを見つける鍵となった。
しかし、エージェントの相互作用のダイナミクスは、戦略がほとんどない単純な2人プレイヤゲームでもナッシュ平衡に達することができず、複雑で予測不可能な振る舞いを示すことが示されている。
代わりに、進化的アプローチは戦略の長期的持続性を記述し、エージェントの相互作用の長期的ダイナミクスを考慮に入れながら、過渡的な戦略をフィルタリングすることができる。
我々のゴールは、動的ゲームにおいてエージェントの支払いを考慮しつつ、安定した行動をもたらし、変化に抵抗するエージェントの合同戦略を特定することである。
本研究の目的は,エージェントの行動ではなくエージェントの戦略を考慮し,エージェントの長期的動態に応じた戦略プロファイルの評価とランク付けに$\alpha$-Rankという進化的方法論を適用することで,ダイナミックゲームを経験的形式に転換することにある。
この手法は,エージェントの長期的相互作用を通じて強い共同戦略を識別するだけでなく,これらの戦略の上位ランキングに関する記述的かつ透明な枠組みを提供する。
グラフ着色問題の確率的バージョンを協調的に解決することを目的としたエージェントの実験報告。
我々は、DQNアルゴリズムを用いて、プレイの異なるスタイルを経験的ゲームを定義する戦略とみなし、これらの戦略を実現するための政策を訓練する。
次に、共同戦略のランク付けに$\alpha$-Rankが必要とするペイオフ行列を生成するためにシミュレーションを実行する。
関連論文リスト
- Preference-based opponent shaping in differentiable games [3.373994463906893]
そこで我々は,エージェントの嗜好を協調に向けて形作ることによって,戦略学習プロセスを強化するためのPBOS法を提案する。
様々な異なるゲームにおいてPBOSアルゴリズムの性能を検証する。
論文 参考訳(メタデータ) (2024-12-04T06:49:21Z) - Paths to Equilibrium in Games [6.812247730094933]
我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。
我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - Opponent Modeling in Multiplayer Imperfect-Information Games [1.024113475677323]
マルチプレイヤー不完全情報ゲームにおける対戦相手モデルへのアプローチを提案する。
我々は,3人プレイヤのクーンポーカーにおいて,種々の実敵と正確なナッシュ均衡戦略に対する実験を行う。
我々のアルゴリズムは、正確なナッシュ均衡戦略を含む全てのエージェントを著しく上回る。
論文 参考訳(メタデータ) (2022-12-12T16:48:53Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Game Theoretic Rating in N-player general-sum games with Equilibria [26.166859475522106]
そこで我々は,N-playerに適した新しいアルゴリズムを提案する。
これにより、平衡のような確立された解の概念を利用でき、複雑な戦略的相互作用を持つゲームにおける戦略を効率的に評価することができる。
論文 参考訳(メタデータ) (2022-10-05T12:33:03Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。