論文の概要: ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret
- arxiv url: http://arxiv.org/abs/2206.04122v1
- Date: Wed, 8 Jun 2022 18:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 12:44:17.649105
- Title: ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret
- Title(参考訳): ESCHER: 履歴値関数を計算してゲームにおける重要度サンプリングを推定する
- Authors: Stephen McAleer, Gabriele Farina, Marc Lanctot, Tuomas Sandholm
- Abstract要約: 超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
- 参考スコア(独自算出の注目度): 97.73233271730616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent techniques for approximating Nash equilibria in very large games
leverage neural networks to learn approximately optimal policies (strategies).
One promising line of research uses neural networks to approximate
counterfactual regret minimization (CFR) or its modern variants. DREAM, the
only current CFR-based neural method that is model free and therefore scalable
to very large games, trains a neural network on an estimated regret target that
can have extremely high variance due to an importance sampling term inherited
from Monte Carlo CFR (MCCFR). In this paper we propose an unbiased model-free
method that does not require any importance sampling. Our method, ESCHER, is
principled and is guaranteed to converge to an approximate Nash equilibrium
with high probability in the tabular case. We show that the variance of the
estimated regret of a tabular version of ESCHER with an oracle value function
is significantly lower than that of outcome sampling MCCFR and tabular DREAM
with an oracle value function. We then show that a deep learning version of
ESCHER outperforms the prior state of the art -- DREAM and neural fictitious
self play (NFSP) -- and the difference becomes dramatic as game size increases.
- Abstract(参考訳): 非常に大きなゲームでナッシュ平衡を近似する最近の技術は、ニューラルネットワークを利用して、ほぼ最適なポリシー(戦略)を学ぶ。
有望な研究の1つは、ニューラルネットワークを使って反実的後悔の最小化(CFR)またはその現代の変種を近似している。
モデルフリーであり、非常に大きなゲームにスケーラブルな、現在のcfrベースのニューラルメソッドであるdreamは、モンテカルロcfr(mccfr)から受け継いだ重要なサンプリング用語によって非常に高いばらつきを持つ推定後悔目標上でニューラルネットワークをトレーニングする。
本稿では,重要サンプリングを必要としない非バイアスモデルフリー手法を提案する。
本手法の原理はescherであり, 表式の場合, 高確率で近似ナッシュ平衡に収束することが保証されている。
オラクルの値関数を持つ表型バージョンのescherの推定後悔のばらつきは、結果サンプリングのmccfrやoracleの値関数の表型ドリームよりもかなり低いことを示している。
次に,ESCHERの深層学習バージョンが,DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており,ゲームサイズが大きくなるにつれてその差が劇的になることを示す。
関連論文リスト
- Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax
Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes [7.433327915285969]
我々は,ロジスティック損失に基づいて学習した広帯域および深部ReLUニューラルネットワーク分類器の普遍的整合性を証明する。
また、ニューラルネットワークに基づく分類器が最小収束率を達成できる確率尺度のクラスに対して十分な条件を与える。
論文 参考訳(メタデータ) (2024-01-08T23:54:46Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - A Kernel-Expanded Stochastic Neural Network [10.837308632004644]
ディープニューラルネットワークは、トレーニングにおいて、しばしばローカルな最小限に閉じ込められる。
新しいカーネル拡張ニューラルネットワーク(K-StoNet)モデルは、潜在変数モデルとしてネットワークを再構成する。
モデルは命令正規化最適化(IRO)アルゴリズムを用いて容易に訓練することができる。
論文 参考訳(メタデータ) (2022-01-14T06:42:42Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Model-free Neural Counterfactual Regret Minimization with Bootstrap
Learning [10.816436463322237]
現在のCFRアルゴリズムは、累積的後悔をニューラルネットワークで近似する必要がある。
新しいCFR変種であるRecursive CFRが提案され、Recursive Substitute Values (RSVs) によって累積的後悔が回復される。
新しい再帰的CFRはナッシュ平衡に収束することが証明されている。
実験の結果、新しいアルゴリズムは最先端のニューラルCFRアルゴリズムと一致できるが、トレーニングのオーバーヘッドは少ないことがわかった。
論文 参考訳(メタデータ) (2020-12-03T12:26:50Z) - Measurement error models: from nonparametric methods to deep neural
networks [3.1798318618973362]
本稿では,測定誤差モデルの推定に有効なニューラルネットワーク設計を提案する。
完全に接続されたフィードフォワードニューラルネットワークを用いて回帰関数を$f(x)$に近似する。
我々は、ニューラルネットワークアプローチと古典的ノンパラメトリック手法を比較するために、広範囲にわたる数値的研究を行っている。
論文 参考訳(メタデータ) (2020-07-15T06:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。