論文の概要: Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games: Corrections
- arxiv url: http://arxiv.org/abs/2205.12031v1
- Date: Tue, 24 May 2022 12:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:09:48.695397
- Title: Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games: Corrections
- Title(参考訳): 総合型ゲームにおける効率的な逸脱タイプと後視性学習:補正
- Authors: Dustin Morrill, Ryan D'Orazio, Marc Lanctot, James R. Wright, Michael
Bowling, Amy R. Greenwald
- Abstract要約: 隠れた合理性(Hindsight rationality)は、個々のエージェントに対して非相対的な学習力学を規定する一般サムゲームに対するアプローチである。
我々は、行動偏差を、広義のゲームの構造を尊重する偏差の一般的なクラスとして定式化する。
本稿では,任意の行動偏差に対して後向きの合理性を実現することを目的としたEFRアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.215566101115336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hindsight rationality is an approach to playing general-sum games that
prescribes no-regret learning dynamics for individual agents with respect to a
set of deviations, and further describes jointly rational behavior among
multiple agents with mediated equilibria. To develop hindsight rational
learning in sequential decision-making settings, we formalize behavioral
deviations as a general class of deviations that respect the structure of
extensive-form games. Integrating the idea of time selection into
counterfactual regret minimization (CFR), we introduce the extensive-form
regret minimization (EFR) algorithm that achieves hindsight rationality for any
given set of behavioral deviations with computation that scales closely with
the complexity of the set. We identify behavioral deviation subsets, the
partial sequence deviation types, that subsume previously studied types and
lead to efficient EFR instances in games with moderate lengths. In addition, we
present a thorough empirical analysis of EFR instantiated with different
deviation types in benchmark games, where we find that stronger types typically
induce better performance.
- Abstract(参考訳): 隠れた合理性(Hindsight rationality)は、一組の偏差に関して個々のエージェントに対して非相対的な学習力学を規定する一般サムゲームに対するアプローチであり、また、仲介均衡を持つ複数のエージェント間での合理な振る舞いを記述している。
逐次的意思決定設定における後見的合理的学習を開発するために,広義ゲームの構造を尊重する偏差の一般的なクラスとして行動偏差を定式化する。
時間選択のアイデアを反実的後悔最小化 (CFR) に統合し, 集合の複雑さと密にスケールする計算を用いて, 任意の行動偏差に対して後向きな合理性を実現する広義の後悔最小化 (EFR) アルゴリズムを導入する。
動作偏差部分集合(部分配列偏差型)は,以前に研究した型をサブセットし,適度な長さのゲームにおいて効率的なERFインスタンスを生成する。
さらに、ベンチマークゲームにおいて、異なる偏差型でインスタンス化されたERFの徹底的な実証分析を行い、より強い型が典型的にはより良いパフォーマンスをもたらすことを示した。
関連論文リスト
- An Axiomatic Approach to Loss Aggregation and an Adapted Aggregating Algorithm [6.749750044497731]
監視された学習は、予想されるリスク最小化フレームワークを超えています。
一般化された集約は、学習者の損失に対する態度を表していると論じる。
論文 参考訳(メタデータ) (2024-06-04T13:11:01Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - A Rationale-Centric Framework for Human-in-the-loop Machine Learning [12.793695970529138]
本稿では,RDL(Ralionales-centric Double-robustness Learning)を用いた新たな理性中心型フレームワークを提案する。
RDLは、有理性(すなわち、予測を引き起こすフレーズ)、人間の介入、半現実的な拡張を利用して、スパイラルな関連性やバイアスモデルを切り離し、一般に適用可能な基礎的分布に向かわせる。
論文 参考訳(メタデータ) (2022-03-24T08:12:57Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games [19.259713752094136]
広形式ゲーム(EFG)における偏差タイプの空間を探索する。
従来研究されていた4つの新しいタイプの偏差を,部分列偏差と呼ぶより広いクラスで同定した。
一般および自然クラスの偏差に対する後視的合理的である広範な形式の後悔最小化(EFR)アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-02-13T18:12:53Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。