論文の概要: Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games
- arxiv url: http://arxiv.org/abs/2102.06973v1
- Date: Sat, 13 Feb 2021 18:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:31:16.321424
- Title: Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games
- Title(参考訳): 拡張型ゲームにおける効率的な逸脱型と後視性学習
- Authors: Dustin Morrill, Ryan D'Orazio, Marc Lanctot, James R. Wright, Michael
Bowling, Amy Greenwald
- Abstract要約: 広形式ゲーム(EFG)における偏差タイプの空間を探索する。
従来研究されていた4つの新しいタイプの偏差を,部分列偏差と呼ぶより広いクラスで同定した。
一般および自然クラスの偏差に対する後視的合理的である広範な形式の後悔最小化(EFR)アルゴリズムを紹介します。
- 参考スコア(独自算出の注目度): 19.259713752094136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hindsight rationality is an approach to playing multi-agent, general-sum
games that prescribes no-regret learning dynamics and describes jointly
rational behavior with mediated equilibria. We explore the space of deviation
types in extensive-form games (EFGs) and discover powerful types that are
efficient to compute in games with moderate lengths. Specifically, we identify
four new types of deviations that subsume previously studied types within a
broader class we call partial sequence deviations. Integrating the idea of time
selection regret minimization into counterfactual regret minimization (CFR), we
introduce the extensive-form regret minimization (EFR) algorithm that is
hindsight rational for a general and natural class of deviations in EFGs. We
provide instantiations and regret bounds for EFR that correspond to each
partial sequence deviation type. In addition, we present a thorough empirical
analysis of EFR's performance with different deviation types in common
benchmark games. As theory suggests, instantiating EFR with stronger deviations
leads to behavior that tends to outperform that of weaker deviations.
- Abstract(参考訳): 後ろ向き合理性(英: hindsight rationality)とは、非回帰学習のダイナミクスを規定し、相互に媒介する平衡との共同合理性行動を記述するマルチエージェント・汎用ゲームへのアプローチである。
広形式ゲーム(EFG)における偏差タイプの空間を探索し、適度な長さのゲームで効率的に計算できる強力なタイプを発見します。
具体的には、より広いクラス内で以前に研究された型を部分配列偏差と呼ぶ4つの新しいタイプの偏差を同定する。
時間選択後悔最小化の概念を反実的後悔最小化 (CFR) に統合し, EFGにおける偏差の一般クラスと自然クラスに対して, 後向きに合理的な拡張形式後悔最小化 (EFR) アルゴリズムを導入する。
各部分シーケンス偏差タイプに対応する EFR のインスタンス化と後悔境界を提供します。
さらに,一般的なベンチマークゲームにおいて,異なる偏差型を持つERFの性能について,徹底的な実証分析を行った。
理論が示すように、EFRをより強い偏差でインスタンス化すると、より弱い偏差よりも優れた振舞いが生じる。
関連論文リスト
- Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z) - Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games: Corrections [28.215566101115336]
隠れた合理性(Hindsight rationality)は、個々のエージェントに対して非相対的な学習力学を規定する一般サムゲームに対するアプローチである。
我々は、行動偏差を、広義のゲームの構造を尊重する偏差の一般的なクラスとして定式化する。
本稿では,任意の行動偏差に対して後向きの合理性を実現することを目的としたEFRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T12:31:14Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Equivalence Analysis between Counterfactual Regret Minimization and
Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。
FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。
本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-10-11T02:12:25Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Simple Uncoupled No-Regret Learning Dynamics for Extensive-Form
Correlated Equilibrium [65.64512759706271]
正常形式ゲームにおける相関平衡と収束する単純非結合非残余力学の存在について研究する。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
我々は,反復数において後悔をトリガーする確率が高い確率で保証する効率的なno-regretアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-04T02:26:26Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium [76.78447814623665]
正規形式ゲームにおいて、相関平衡に収束する最初の非共役な非共役ダイナミクスを与える。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
提案アルゴリズムは,各決定点における局所的なサブプロブレムにトリガを分解し,局所解からプレイヤーのグローバルな戦略を構築する。
論文 参考訳(メタデータ) (2020-04-01T17:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。