論文の概要: Game Theoretic Rating in N-player general-sum games with Equilibria
- arxiv url: http://arxiv.org/abs/2210.02205v1
- Date: Wed, 5 Oct 2022 12:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:37:42.724075
- Title: Game Theoretic Rating in N-player general-sum games with Equilibria
- Title(参考訳): n-player general-sum gamesにおけるゲーム理論評価
- Authors: Luke Marris, Marc Lanctot, Ian Gemp, Shayegan Omidshafiei, Stephen
McAleer, Jerome Connor, Karl Tuyls, Thore Graepel
- Abstract要約: そこで我々は,N-playerに適した新しいアルゴリズムを提案する。
これにより、平衡のような確立された解の概念を利用でき、複雑な戦略的相互作用を持つゲームにおける戦略を効率的に評価することができる。
- 参考スコア(独自算出の注目度): 26.166859475522106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rating strategies in a game is an important area of research in game theory
and artificial intelligence, and can be applied to any real-world competitive
or cooperative setting. Traditionally, only transitive dependencies between
strategies have been used to rate strategies (e.g. Elo), however recent work
has expanded ratings to utilize game theoretic solutions to better rate
strategies in non-transitive games. This work generalizes these ideas and
proposes novel algorithms suitable for N-player, general-sum rating of
strategies in normal-form games according to the payoff rating system. This
enables well-established solution concepts, such as equilibria, to be leveraged
to efficiently rate strategies in games with complex strategic interactions,
which arise in multiagent training and real-world interactions between many
agents. We empirically validate our methods on real world normal-form data
(Premier League) and multiagent reinforcement learning agent evaluation.
- Abstract(参考訳): ゲームにおけるレーティング戦略は、ゲーム理論と人工知能における重要な研究分野であり、現実世界の競争的または協調的な設定に適用することができる。
伝統的に、戦略間の推移的依存関係のみが戦略の評価(例えば、エロ)に使われてきたが、最近の研究は非推移的ゲームにおける戦略の評価を改善するためにゲーム理論の解を利用するように評価を拡張した。
本研究は,これらのアイデアを一般化し,通常のゲームにおける戦略のN-player,ジェネリックサムレーティングに適した新しいアルゴリズムを提案する。
これにより、平衡のような確立された解の概念を活用し、複雑な戦略的相互作用を持つゲームにおける戦略を効率的に評価することができる。
実世界の正規形データ(Premier League)とマルチエージェント強化学習エージェントによる評価を実証的に検証した。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文 参考訳(メタデータ) (2023-05-23T16:37:21Z) - Opponent Modeling in Multiplayer Imperfect-Information Games [1.024113475677323]
マルチプレイヤー不完全情報ゲームにおける対戦相手モデルへのアプローチを提案する。
我々は,3人プレイヤのクーンポーカーにおいて,種々の実敵と正確なナッシュ均衡戦略に対する実験を行う。
我々のアルゴリズムは、正確なナッシュ均衡戦略を含む全てのエージェントを著しく上回る。
論文 参考訳(メタデータ) (2022-12-12T16:48:53Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z) - The Design Of "Stratega": A General Strategy Games Framework [62.997667081978825]
Strategaはターンベースおよびリアルタイム戦略ゲームを作成するためのフレームワークである。
このフレームワークは、統計的フォワードプランニング(SFP)エージェントに焦点を当てて構築されている。
我々は,このフレームワークとそのエージェントの開発が,戦略ゲームにおける複雑な意思決定プロセスの理解に役立つことを願っている。
論文 参考訳(メタデータ) (2020-09-11T20:02:00Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。