論文の概要: Model-free Neural Counterfactual Regret Minimization with Bootstrap
Learning
- arxiv url: http://arxiv.org/abs/2012.01870v2
- Date: Sun, 9 May 2021 12:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 14:41:51.868908
- Title: Model-free Neural Counterfactual Regret Minimization with Bootstrap
Learning
- Title(参考訳): ブートストラップ学習によるモデルなしニューラルカウンターファクトレグレスト最小化
- Authors: Weiming Liu, Bin Li, Julian Togelius
- Abstract要約: 現在のCFRアルゴリズムは、累積的後悔をニューラルネットワークで近似する必要がある。
新しいCFR変種であるRecursive CFRが提案され、Recursive Substitute Values (RSVs) によって累積的後悔が回復される。
新しい再帰的CFRはナッシュ平衡に収束することが証明されている。
実験の結果、新しいアルゴリズムは最先端のニューラルCFRアルゴリズムと一致できるが、トレーニングのオーバーヘッドは少ないことがわかった。
- 参考スコア(独自算出の注目度): 10.816436463322237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual Regret Minimization (CFR) has achieved many fascinating
results in solving large-scale Imperfect Information Games (IIGs). Neural CFR
is one of the promising techniques that can effectively reduce computation and
memory consumption by generalizing decision information between similar states.
However, current neural CFR algorithms have to approximate the cumulative
regrets with neural networks. This usually results in high-variance
approximation because regrets from different iterations could be very
different. The problem can be even worse when importance sampling is used,
which is required for model-free algorithms. In this paper, a new CFR variant,
Recursive CFR, is proposed, in which the cumulative regrets are recovered by
Recursive Substitute Values (RSVs) that are recursively defined and
independently calculated between iterations. It is proved the new Recursive CFR
converges to a Nash equilibrium. Based on Recursive CFR, a new model-free
neural CFR algorithm with bootstrap learning is proposed. Experimental results
show that the new algorithm can match the state-of-the-art neural CFR
algorithms but with less training overhead.
- Abstract(参考訳): 大規模不完全情報ゲーム(IIG)の解法として,CFR(Counterfactual Regret Minimization)が注目されている。
ニューラルCFRは、類似状態間の決定情報を一般化することにより、計算とメモリ消費を効果的に削減できる有望な手法の1つである。
しかし、現在のニューラルcfrアルゴリズムは、ニューラルネットワークによる累積後悔を近似する必要がある。
これは通常、異なる反復からの後悔は非常に異なる可能性があるため、高分散近似をもたらす。
この問題は、モデルフリーなアルゴリズムに必要となる重要サンプリングを使用する場合、さらに悪化する可能性がある。
本稿では,反復間で再帰的に定義され,独立に計算される再帰的代用値(rsvs)によって累積的後悔を回収する新しいcfr変種である再帰的cfrを提案する。
新しい再帰的CFRはナッシュ平衡に収束することが証明されている。
Recursive CFRに基づいて、ブートストラップ学習を用いたモデルなしニューラルCFRアルゴリズムを提案する。
実験の結果、新しいアルゴリズムは最先端のニューラルネットワークcfrアルゴリズムにマッチするが、トレーニングオーバーヘッドは少ないことがわかった。
関連論文リスト
- Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文 参考訳(メタデータ) (2022-06-08T18:43:45Z) - Equivalence Analysis between Counterfactual Regret Minimization and
Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。
FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。
本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-10-11T02:12:25Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Revisiting Recursive Least Squares for Training Deep Neural Networks [10.44340837533087]
再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-07T17:43:51Z) - A Novel Neural Network Training Framework with Data Assimilation [2.948167339160823]
勾配計算を避けるため,データ同化に基づく勾配なし学習フレームワークを提案する。
その結果,提案手法は勾配法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-06T11:12:23Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。