論文の概要: NNCFR: Minimize Counterfactual Regret with Neural Networks
- arxiv url: http://arxiv.org/abs/2105.12328v1
- Date: Wed, 26 May 2021 04:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:30:36.560182
- Title: NNCFR: Minimize Counterfactual Regret with Neural Networks
- Title(参考訳): NNCFR:ニューラルネットワークによる反ファクトレグレストの最小化
- Authors: Huale Li, Xuan Wang, Zengyue Guo, Jiajia Zhang, Shuhan Qi
- Abstract要約: 本稿では, textitDeep CFRの改良版である textitNeural Network Counterfactual Regret Minimization (NNCFR) を紹介する。
textitNNCFRは、TextitDeep CFRよりも早く収束し、より安定して動作する。
- 参考スコア(独自算出の注目度): 4.418221583366099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual Regret Minimization (CFR)} is the popular method for finding
approximate Nash equilibrium in two-player zero-sum games with imperfect
information. CFR solves games by travsersing the full game tree iteratively,
which limits its scalability in larger games. When applying CFR to solve
large-scale games in previously, large-scale games are abstracted into
small-scale games firstly. Secondly, CFR is used to solve the abstract game.
And finally, the solution strategy is mapped back to the original large-scale
game. However, this process requires considerable expert knowledge, and the
accuracy of abstraction is closely related to expert knowledge. In addition,
the abstraction also loses certain information, which will eventually affect
the accuracy of the solution strategy. Towards this problem, a recent method,
\textit{Deep CFR} alleviates the need for abstraction and expert knowledge by
applying deep neural networks directly to CFR in full games. In this paper, we
introduces \textit{Neural Network Counterfactual Regret Minimization (NNCFR)},
an improved variant of \textit{Deep CFR} that has a faster convergence by
constructing a dueling netwok as the value network. Moreover, an evaluation
module is designed by combining the value network and Monte Carlo, which
reduces the approximation error of the value network. In addition, a new loss
function is designed in the procedure of training policy network in the
proposed \textit{NNCFR}, which can be good to make the policy network more
stable. The extensive experimental tests are conducted to show that the
\textit{NNCFR} converges faster and performs more stable than \textit{Deep
CFR}, and outperforms \textit{Deep CFR} with respect to exploitability and
head-to-head performance on test games.
- Abstract(参考訳): ファクトファクトレグレスト最小化(CFR)は、不完全な情報を持つ2つのプレイヤーゼロサムゲームにおいて、近似ナッシュ平衡を求める一般的な方法である。
CFRはゲームツリー全体を反復的に切り刻むことでゲームを解決し、より大きなゲームのスケーラビリティを制限する。
従来,大規模ゲームにcfrを適用する場合,大規模ゲームはまず小規模ゲームに抽象化される。
第2に、CFRは抽象ゲームを解くために使用される。
そして最後に、ソリューション戦略はオリジナルの大規模ゲームにマッピングされます。
しかし、このプロセスにはかなりの専門知識が必要であり、抽象化の正確さは専門知識と密接に関連している。
さらに、抽象化は特定の情報を失い、最終的にはソリューション戦略の精度に影響を与える。
この問題に向けて、最近の方法である‘textit{Deep CFR’は、完全なゲームにおいて深層ニューラルネットワークを直接CFRに適用することにより、抽象化と専門知識の必要性を軽減する。
本稿では、値ネットワークとしてデュエルネットウォクを構築することにより、より高速な収束性を持つ、より改良された \textit{Deep CFR} である \textit{Neural Network Counterfactual Regret Minimization (NNCFR)} を紹介する。
さらに、評価モジュールは、値ネットワークとモンテカルロを組み合わせることで設計され、値ネットワークの近似誤差を低減する。
さらに、新しい損失関数は、提案された \textit{nncfr} のポリシーネットワークを訓練する手順で設計されており、ポリシーネットワークをより安定させるのに役立つ。
実験により, \textit{NNCFR} は \textit{Deep CFR} よりも高速に収束し,より安定に動作し, テストゲームにおける操作性やヘッド・ツー・ヘッドのパフォーマンスに対して, \textit{Deep CFR} よりも優れていた。
関連論文リスト
- Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文 参考訳(メタデータ) (2022-06-08T18:43:45Z) - Equivalence Analysis between Counterfactual Regret Minimization and
Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。
FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。
本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-10-11T02:12:25Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Model-free Neural Counterfactual Regret Minimization with Bootstrap
Learning [10.816436463322237]
現在のCFRアルゴリズムは、累積的後悔をニューラルネットワークで近似する必要がある。
新しいCFR変種であるRecursive CFRが提案され、Recursive Substitute Values (RSVs) によって累積的後悔が回復される。
新しい再帰的CFRはナッシュ平衡に収束することが証明されている。
実験の結果、新しいアルゴリズムは最先端のニューラルCFRアルゴリズムと一致できるが、トレーニングのオーバーヘッドは少ないことがわかった。
論文 参考訳(メタデータ) (2020-12-03T12:26:50Z) - Recurrent Feature Reasoning for Image Inpainting [110.24760191732905]
Recurrent Feature Reasoning (RFR) は主にプラグアンドプレイの Recurrent Feature Reasoning モジュールと Knowledge Consistent Attention (KCA) モジュールで構築されている。
RFRモジュールは、畳み込み特徴写像の穴の境界を反復的に推論し、さらに推論の手がかりとして利用する。
RFRの特徴マップ内の離れた場所からの情報を取得するため、我々はさらにKCAを開発し、RFRに組み込む。
論文 参考訳(メタデータ) (2020-08-09T14:40:04Z) - Faster Game Solving via Predictive Blackwell Approachability: Connecting
Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。
RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。
18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文 参考訳(メタデータ) (2020-07-28T16:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。