論文の概要: Deep (Predictive) Discounted Counterfactual Regret Minimization
- arxiv url: http://arxiv.org/abs/2511.08174v1
- Date: Wed, 12 Nov 2025 01:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.679304
- Title: Deep (Predictive) Discounted Counterfactual Regret Minimization
- Title(参考訳): 深い(予測的な)非現実的レギュレット最小化
- Authors: Hang Xu, Kai Li, Haobo Fu, Qiang Fu, Junliang Xing, Jian Cheng,
- Abstract要約: 本稿では,CFRの高度な変種を近似する既存の手法の限界を克服する,効率的なモデルフリーなニューラルCFRアルゴリズムを提案する。
実験結果から、モデルなしニューラルネットワークと比較して、不完全情報ゲームにおいてより高速な収束を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 47.323787598768284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual regret minimization (CFR) is a family of algorithms for effectively solving imperfect-information games. To enhance CFR's applicability in large games, researchers use neural networks to approximate its behavior. However, existing methods are mainly based on vanilla CFR and struggle to effectively integrate more advanced CFR variants. In this work, we propose an efficient model-free neural CFR algorithm, overcoming the limitations of existing methods in approximating advanced CFR variants. At each iteration, it collects variance-reduced sampled advantages based on a value network, fits cumulative advantages by bootstrapping, and applies discounting and clipping operations to simulate the update mechanisms of advanced CFR variants. Experimental results show that, compared with model-free neural algorithms, it exhibits faster convergence in typical imperfect-information games and demonstrates stronger adversarial performance in a large poker game.
- Abstract(参考訳): 反事実的後悔の最小化(英: Counterfactual regret minimization, CFR)は、不完全情報ゲーム(英語版)を効果的に解くアルゴリズムの一群である。
大規模ゲームにおけるCFRの適用性を高めるために、研究者はニューラルネットワークを使用してその振る舞いを近似する。
しかし、既存の手法は主にバニラCFRに基づいており、より高度なCFRを効果的に統合するのに苦労している。
本研究では,CFRの高度な変種を近似する既存の手法の限界を克服する,効率的なモデルフリーなニューラルCFRアルゴリズムを提案する。
各イテレーションにおいて、値ネットワークに基づいて分散還元されたサンプルの利点を収集し、ブートストラップによる累積的な利点に適合し、高度なCFR変種のアップデートメカニズムをシミュレートするために割引とクリップ操作を適用する。
実験結果から, モデルフリーなニューラルアルゴリズムと比較して, 典型的な不完全情報ゲームにおいて, より高速な収束を示し, ポーカーゲームにおいて, より強力な対向性能を示すことがわかった。
関連論文リスト
- Minimizing Weighted Counterfactual Regret with Optimistic Online Mirror Descent [44.080852682765276]
本研究は,楽観的オンラインミラードライザー(OMD)による重み付き反事実的後悔の最小化を探求する。
PCFR+とDiscounted CFR(DCFR)を原則的に統合し、支配的な作用の負の効果を迅速に緩和する。
PDCFR+は不完全情報ゲームにおいて高速収束を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-04-22T05:37:22Z) - Accelerating Nash Equilibrium Convergence in Monte Carlo Settings Through Counterfactual Value Based Fictitious Play [0.0]
MCCFVFPと呼ばれる不完全な情報ゲームを解決するための新しいMCベースのアルゴリズムを提案する。
MCCFVFPは、CFRの反実値計算と架空のプレイのベストレスポンス戦略を組み合わせる。
その結果,MCCFVFPは最も先進的なMCCFRよりも約20%$sim$50%速かった。
論文 参考訳(メタデータ) (2023-09-04T09:16:49Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文 参考訳(メタデータ) (2022-06-08T18:43:45Z) - Equivalence Analysis between Counterfactual Regret Minimization and
Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。
FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。
本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-10-11T02:12:25Z) - Model-free Neural Counterfactual Regret Minimization with Bootstrap
Learning [10.816436463322237]
現在のCFRアルゴリズムは、累積的後悔をニューラルネットワークで近似する必要がある。
新しいCFR変種であるRecursive CFRが提案され、Recursive Substitute Values (RSVs) によって累積的後悔が回復される。
新しい再帰的CFRはナッシュ平衡に収束することが証明されている。
実験の結果、新しいアルゴリズムは最先端のニューラルCFRアルゴリズムと一致できるが、トレーニングのオーバーヘッドは少ないことがわかった。
論文 参考訳(メタデータ) (2020-12-03T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。