論文の概要: Real-Time Parallel Counterfactual Regret Minimization
- arxiv url: http://arxiv.org/abs/2605.19928v1
- Date: Tue, 19 May 2026 14:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.412323
- Title: Real-Time Parallel Counterfactual Regret Minimization
- Title(参考訳): 実時間並列逆Regret最小化
- Authors: Boning Li, Longbo Huang,
- Abstract要約: リアルタイムゲームプレイシステムでは、解法は決定に数秒の厳格な時間予算でほぼ平衡戦略を計算しなければならない。
リアルタイム深度制限型CFR解析のための最初の並列化フレームワークである textbfParallel CFR を提案する。
ヘッドアップノーリミットテキサスホールドムの実験では、パラレルCFRはシングルスレッドベースラインよりも3.3$-3.4times$スピードアップを達成した。
- 参考スコア(独自算出の注目度): 38.06569764716213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual Regret Minimization (CFR) is the dominant algorithmic family for solving large imperfect-information games, underpinning breakthroughs such as Libratus and Pluribus in No-Limit Texas Hold'em poker. In real-time game-playing systems, the solver must compute a near-equilibrium strategy within a strict time budget of only a few seconds per decision, and the number of CFR iterations completed in this window directly determines play strength. We present \textbf{Parallel CFR}, the first parallelization framework for real-time depth-limited CFR solving that seamlessly integrates pruning, abstraction, and advanced CFR variants. We decompose each CFR iteration into a pipeline of seven stages and identify two orthogonal dimensions of parallelism: \emph{by information set} and \emph{by tree node}. Leaf node evaluation is offloaded to GPUs via batched neural network inference, creating a heterogeneous CPU--GPU pipeline. Experiments on Heads-Up No-Limit Texas Hold'em demonstrate that Parallel CFR achieves $3.3$--$3.4\times$ speedup over the single-threaded baseline on postflop streets, with per-iteration time of ${\sim}47$--$54$~ms on a depth-limited game tree with over $1$ billion histories. All experiments run on a single desktop-class device (NVIDIA DGX Spark), enabling hundreds of CFR iterations within a typical real-time decision budget without requiring datacenter-scale infrastructure.
- Abstract(参考訳): Counterfactual Regret Minimization (CFR) は、No-Limit Texas Hold'em pokerにおけるLibratusやPluribusのようなブレークスルーを支えている大規模な不完全な情報ゲームを解くアルゴリズムの主流である。
リアルタイムゲームプレイシステムでは、決定毎に数秒の厳格な時間予算でほぼ平衡戦略を計算し、このウィンドウで完了したCFRイテレーションの回数が直接プレイ強度を決定する。
実時間深度制限付きCFR解くための最初の並列化フレームワークである \textbf{Parallel CFR} について述べる。
それぞれの CFR 反復を 7 段階のパイプラインに分解し,並列性の直交次元である \emph{by information set} と \emph{by tree node} を同定する。
リーフノードの評価は、バッチニューラルネットワーク推論を通じてGPUにオフロードされ、異種CPU-GPUパイプラインを生成する。
Heads-Up No-Limit Texas Hold'emの実験では、Parallel CFRが3.3$--3.4\times$、ポストフロップ通りのシングルスレッドベースラインでのスピードアップを達成した。
すべての実験は、単一のデスクトップクラスデバイス(NVIDIA DGX Spark)上で実行され、データセンター規模のインフラストラクチャを必要とせずに、典型的なリアルタイム意思決定予算内で数百のCFRイテレーションを可能にする。
関連論文リスト
- Parallelizing Counterfactual Regret Minimization [62.94836578759359]
反実的後悔最小化(CFR)アルゴリズムのファミリーを並列化する。
我々は、GPU上のCFRの実装が、Google DeepMind OpenSpielのCPU上のCFR実装よりも最大4桁高速であることを示す。
論文 参考訳(メタデータ) (2026-05-14T02:22:27Z) - Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization [77.3396841985172]
我々は、構造化された非極小最適化問題の解法として、2時間勾配上昇(TTGDA)を統一的に解析する。
我々の貢献はTTGDAアルゴリズムを設計することであり、設定を超えて効果的です。
論文 参考訳(メタデータ) (2024-08-21T20:14:54Z) - Accelerating Nash Equilibrium Convergence in Monte Carlo Settings Through Counterfactual Value Based Fictitious Play [0.0]
MCCFVFPと呼ばれる不完全な情報ゲームを解決するための新しいMCベースのアルゴリズムを提案する。
MCCFVFPは、CFRの反実値計算と架空のプレイのベストレスポンス戦略を組み合わせる。
その結果,MCCFVFPは最も先進的なMCCFRよりも約20%$sim$50%速かった。
論文 参考訳(メタデータ) (2023-09-04T09:16:49Z) - Asynchronous Training Schemes in Distributed Learning with Time Delay [17.259708772713164]
分散ディープラーニングの文脈では、固定重みや勾配の問題によってアルゴリズムの性能が低下する可能性がある。
本稿では,静的な重みや勾配の問題に対処する別のアプローチを提案する。
また,PC-ASGDの実用版として,トレードオフパラメータの決定を支援する条件を適用して提案する。
論文 参考訳(メタデータ) (2022-08-28T07:14:59Z) - Equivalence Analysis between Counterfactual Regret Minimization and
Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。
FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。
本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-10-11T02:12:25Z) - NNCFR: Minimize Counterfactual Regret with Neural Networks [4.418221583366099]
本稿では, textitDeep CFRの改良版である textitNeural Network Counterfactual Regret Minimization (NNCFR) を紹介する。
textitNNCFRは、TextitDeep CFRよりも早く収束し、より安定して動作する。
論文 参考訳(メタデータ) (2021-05-26T04:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。