論文の概要: Hindsight and Sequential Rationality of Correlated Play
- arxiv url: http://arxiv.org/abs/2012.05874v2
- Date: Thu, 17 Dec 2020 01:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:14:23.318159
- Title: Hindsight and Sequential Rationality of Correlated Play
- Title(参考訳): 関連遊びの視線と逐次的合理性
- Authors: Dustin Morrill, Ryan D'Orazio, Reca Sarfati, Marc Lanctot, James R.
Wright, Amy Greenwald, Michael Bowling
- Abstract要約: 私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
- 参考スコア(独自算出の注目度): 18.176128899338433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by recent successes in two-player, zero-sum game solving and playing,
artificial intelligence work on games has increasingly focused on algorithms
that produce equilibrium-based strategies. However, this approach has been less
effective at producing competent players in general-sum games or those with
more than two players than in two-player, zero-sum games. An appealing
alternative is to consider adaptive algorithms that ensure strong performance
in hindsight relative to what could have been achieved with modified behavior.
This approach also leads to a game-theoretic analysis, but in the correlated
play that arises from joint learning dynamics rather than factored agent
behavior at equilibrium. We develop and advocate for this hindsight rationality
framing of learning in general sequential decision-making settings. To this
end, we re-examine mediated equilibrium and deviation types in extensive-form
games, thereby gaining a more complete understanding and resolving past
misconceptions. We present a set of examples illustrating the distinct
strengths and weaknesses of each type of equilibrium in the literature, and
prove that no tractable concept subsumes all others. This line of inquiry
culminates in the definition of the deviation and equilibrium classes that
correspond to algorithms in the counterfactual regret minimization (CFR)
family, relating them to all others in the literature. Examining CFR in greater
detail further leads to a new recursive definition of rationality in correlated
play that extends sequential rationality in a way that naturally applies to
hindsight evaluation.
- Abstract(参考訳): 2人のプレイヤーによるゼロサムゲーム解決とゲームの成功によって、ゲームにおける人工知能の作業は、均衡ベースの戦略を生み出すアルゴリズムにますます焦点が当てられている。
しかし、このアプローチは、一般シュームゲームにおける有能なプレイヤーや2人以上のプレイヤーに対して、2人のプレイヤーがゼロシュームゲームよりも効果的ではない。
魅力的な選択肢は、修正された動作で達成できたことに対して、後見の強いパフォーマンスを保証する適応アルゴリズムを検討することである。
このアプローチはまた、ゲーム理論的な分析につながるが、均衡におけるエージェントの行動の因子ではなく、共同学習のダイナミクスから生じる相関プレイにおいて生じる。
我々は,学習の隠れた合理的な枠組みを,逐次的意思決定の場面で開発し,提唱する。
この目的のために、我々は広範形式のゲームにおける平衡と偏差の型を再検討し、過去の誤解をより完全に理解し解決する。
我々は,文献における各種類の平衡の強さと弱さを示す一連の例を示し,他のすべての概念に従わないことを証明した。
この調査の行は、反実的後悔最小化(CFR)ファミリーのアルゴリズムに対応する偏差と平衡のクラスの定義において、文学における他のすべてのものと関係している。
cfrをより詳細に調べると、後見評価に自然に適用される方法で逐次合理性を拡張する相関遊びにおける合理性の新しい再帰的な定義がもたらされる。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - Learning Rationalizable Equilibria in Multiplayer Games [38.922957434291554]
既存のアルゴリズムでは、帯域幅フィードバックの下で合理化可能な平衡を学習するために、プレイヤー数で指数関数的に多くのサンプルを必要とする。
本稿では、合理化可能な粗相関平衡(CCE)と相関平衡(CE)を学習するための効率的なアルゴリズムの第一線を開発する。
本アルゴリズムは,合理化可能性を保証するための新しい手法と,相関探索スキームと適応学習率を含む(スワップ-)レグレットを同時に備えている。
論文 参考訳(メタデータ) (2022-10-20T16:49:00Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Multiplayer Performative Prediction: Learning in Decision-Dependent
Games [18.386569111954213]
本稿では,マルチプレイヤー演奏予測のための新たなゲーム理論の枠組みを定式化する。
我々は、(i)パフォーマンス的に安定な平衡と(ii)ゲームのナッシュ平衡という、2つの異なる解の概念に焦点を当てる。
軽微な仮定の下では、様々なアルゴリズムにより、性能的に安定な平衡を効率的に見つけることができることを示す。
論文 参考訳(メタデータ) (2022-01-10T15:31:10Z) - Uncoupled Bandit Learning towards Rationalizability: Benchmarks,
Barriers, and Algorithms [41.307340085194625]
一般ゲームにおける最終点収束保証を合理化可能性へ向けて検討する。
この学習課題は、最高の腕識別問題を自然に一般化する。
そこで我々は,Exp3をDimishing Historical rewardsで調整するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-11-10T02:10:07Z) - Bounded rationality for relaxing best response and mutual consistency:
An information-theoretic model of partial self-reference [0.0]
この研究は、相互整合性やベストレスポンスなど、合理的性の前提となるいくつかの仮定に焦点を当てている。
我々は、レベル-$k$推論と量子応答平衡(QRE)の概念を用いて、これらの仮定を緩和する方法を検討する。
論文 参考訳(メタデータ) (2021-06-30T06:56:56Z) - Evolutionary Strategies with Analogy Partitions in p-guessing Games [0.0]
不安定なpゲーム環境における学習のダイナミクスを研究するために,学習の進化過程を導入する。
我々の遺伝的アルゴリズムは、ナッシュ平衡に収束して、持続的な環境における過去の結果と一貫して振る舞うことを示す。
論文 参考訳(メタデータ) (2021-03-26T10:28:23Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。