論文の概要: Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games
- arxiv url: http://arxiv.org/abs/2102.06973v1
- Date: Sat, 13 Feb 2021 18:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:31:16.321424
- Title: Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games
- Title(参考訳): 拡張型ゲームにおける効率的な逸脱型と後視性学習
- Authors: Dustin Morrill, Ryan D'Orazio, Marc Lanctot, James R. Wright, Michael
Bowling, Amy Greenwald
- Abstract要約: 広形式ゲーム(EFG)における偏差タイプの空間を探索する。
従来研究されていた4つの新しいタイプの偏差を,部分列偏差と呼ぶより広いクラスで同定した。
一般および自然クラスの偏差に対する後視的合理的である広範な形式の後悔最小化(EFR)アルゴリズムを紹介します。
- 参考スコア(独自算出の注目度): 19.259713752094136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hindsight rationality is an approach to playing multi-agent, general-sum
games that prescribes no-regret learning dynamics and describes jointly
rational behavior with mediated equilibria. We explore the space of deviation
types in extensive-form games (EFGs) and discover powerful types that are
efficient to compute in games with moderate lengths. Specifically, we identify
four new types of deviations that subsume previously studied types within a
broader class we call partial sequence deviations. Integrating the idea of time
selection regret minimization into counterfactual regret minimization (CFR), we
introduce the extensive-form regret minimization (EFR) algorithm that is
hindsight rational for a general and natural class of deviations in EFGs. We
provide instantiations and regret bounds for EFR that correspond to each
partial sequence deviation type. In addition, we present a thorough empirical
analysis of EFR's performance with different deviation types in common
benchmark games. As theory suggests, instantiating EFR with stronger deviations
leads to behavior that tends to outperform that of weaker deviations.
- Abstract(参考訳): 後ろ向き合理性(英: hindsight rationality)とは、非回帰学習のダイナミクスを規定し、相互に媒介する平衡との共同合理性行動を記述するマルチエージェント・汎用ゲームへのアプローチである。
広形式ゲーム(EFG)における偏差タイプの空間を探索し、適度な長さのゲームで効率的に計算できる強力なタイプを発見します。
具体的には、より広いクラス内で以前に研究された型を部分配列偏差と呼ぶ4つの新しいタイプの偏差を同定する。
時間選択後悔最小化の概念を反実的後悔最小化 (CFR) に統合し, EFGにおける偏差の一般クラスと自然クラスに対して, 後向きに合理的な拡張形式後悔最小化 (EFR) アルゴリズムを導入する。
各部分シーケンス偏差タイプに対応する EFR のインスタンス化と後悔境界を提供します。
さらに,一般的なベンチマークゲームにおいて,異なる偏差型を持つERFの性能について,徹底的な実証分析を行った。
理論が示すように、EFRをより強い偏差でインスタンス化すると、より弱い偏差よりも優れた振舞いが生じる。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Enhance Diffusion to Improve Robust Generalization [39.9012723077658]
emphAdversarial Training (AT)は、敵の摂動に対する最も強力な防御機構の1つである。
本稿では, 第一のATフレームワークであるGD-AT(Projected Gradient Descent Adversarial Training)に焦点を当てる。
本稿では,分散項を操作し,計算負荷を実質的に伴わない堅牢な一般化を改善するための新しい手法であるemphDiffusion Enhanced Adversarial Training (DEAT)を提案する。
論文 参考訳(メタデータ) (2023-06-05T06:36:18Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z) - Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games: Corrections [28.215566101115336]
隠れた合理性(Hindsight rationality)は、個々のエージェントに対して非相対的な学習力学を規定する一般サムゲームに対するアプローチである。
我々は、行動偏差を、広義のゲームの構造を尊重する偏差の一般的なクラスとして定式化する。
本稿では,任意の行動偏差に対して後向きの合理性を実現することを目的としたEFRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T12:31:14Z) - Equivalence Analysis between Counterfactual Regret Minimization and
Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。
FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。
本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-10-11T02:12:25Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium [76.78447814623665]
正規形式ゲームにおいて、相関平衡に収束する最初の非共役な非共役ダイナミクスを与える。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
提案アルゴリズムは,各決定点における局所的なサブプロブレムにトリガを分解し,局所解からプレイヤーのグローバルな戦略を構築する。
論文 参考訳(メタデータ) (2020-04-01T17:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。