Fugu-MT 論文翻訳(概要): Pure Monte Carlo Counterfactual Regret Minimization

論文の概要: Pure Monte Carlo Counterfactual Regret Minimization

arxiv url: http://arxiv.org/abs/2309.03084v1
Date: Mon, 4 Sep 2023 09:16:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 14:57:32.604626
Title: Pure Monte Carlo Counterfactual Regret Minimization
Title（参考訳）: モンテカルロ対実レギュレット最小化
Authors: Ju Qi, Ting Feng, Falun Hei, Zhemei Fang, Yunfeng Luo
Abstract要約: 本稿では,Pure CFR (PCFR) という新しいアルゴリズムを提案する。 PCFRが接近性を達成するという理論的な証明は、PCFRがどのCFR変種と組み合わせることを可能にします。 PMCCFRの収束速度はMCCFRの3倍である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Counterfactual Regret Minimization (CFR) and its variants are the best algorithms so far for solving large-scale incomplete information games. Building upon CFR, this paper proposes a new algorithm named Pure CFR (PCFR) for achieving better performance. PCFR can be seen as a combination of CFR and Fictitious Play (FP), inheriting the concept of counterfactual regret (value) from CFR, and using the best response strategy instead of the regret matching strategy for the next iteration. Our theoretical proof that PCFR can achieve Blackwell approachability enables PCFR's ability to combine with any CFR variant including Monte Carlo CFR (MCCFR). The resultant Pure MCCFR (PMCCFR) can significantly reduce time and space complexity. Particularly, the convergence speed of PMCCFR is at least three times more than that of MCCFR. In addition, since PMCCFR does not pass through the path of strictly dominated strategies, we developed a new warm-start algorithm inspired by the strictly dominated strategies elimination method. Consequently, the PMCCFR with new warm start algorithm can converge by two orders of magnitude faster than the CFR+ algorithm.
Abstract（参考訳）: 対実回帰最小化(CFR)とその変種は、大規模な不完全情報ゲームの解決に最適なアルゴリズムである。本稿では,CFRをベースとしたPure CFR(PCFR)というアルゴリズムを提案する。 PCFR は CFR と Fictitious Play (FP) の組み合わせと見なすことができ、CFR から反実的後悔 (value) の概念を継承し、次のイテレーションの後悔マッチング戦略の代わりに最良の反応戦略を使用する。我々は, PCFRがブラックウェルのアプローチ性を実現することができるという理論的証明により, モンテカルロCFR (MCCFR) を含む任意のCFR変種とPCFRが結合できることを示す。その結果、PMCCFR (PMCCFR) は時間と空間の複雑さを著しく減少させる。特にPMCCFRの収束速度はMCCFRの3倍である。また,pmccfrは厳密な支配戦略の経路を通り抜けないので,厳密な支配戦略除去法に触発された新しいウォームスタートアルゴリズムを開発した。これにより、新しいウォームスタートアルゴリズムによるPMCCFRは、CFR+アルゴリズムよりも2桁早く収束することができる。

関連論文リスト

Reevaluating Policy Gradient Methods for Imperfect-Information Games [94.45878689061335]
我々は,不完全情報ゲームにおけるDRLアルゴリズムの最大利用可能性比較を行う。 5600以上のトレーニング実行、FP、DO、CFRベースのアプローチは、一般的なポリシー勾配メソッドを上回りません。
論文参考訳（メタデータ） (2025-02-13T03:38:41Z)
Rapid Learning in Constrained Minimax Games with Negative Momentum [5.086470864936883]
本稿では,非拘束条件から制約条件まで負の運動量の発見を拡大する,運動量バッファ更新のための新しいフレームワークを提案する。正規形式ゲーム (NFGs) と拡張形式ゲーム (EFGs) の両方の実験結果から、我々の運動量技術はアルゴリズムの性能を大幅に向上させることができることを示した。
論文参考訳（メタデータ） (2024-12-31T16:32:51Z)
Minimizing Weighted Counterfactual Regret with Optimistic Online Mirror Descent [44.080852682765276]
本研究は,楽観的オンラインミラードライザー(OMD)による重み付き反事実的後悔の最小化を探求する。 PCFR+とDiscounted CFR(DCFR)を原則的に統合し、支配的な作用の負の効果を迅速に緩和する。 PDCFR+は不完全情報ゲームにおいて高速収束を示す実験結果が得られた。
論文参考訳（メタデータ） (2024-04-22T05:37:22Z)
RL-CFR: Improving Action Abstraction for Imperfect Information Extensive-Form Games with Reinforcement Learning [42.80561441946148]
動的動作抽象化のための新しい強化学習(RL)手法であるRL-CFRを紹介する。 RL-CFRは、我々の革新的なマルコフ決定プロセス(MDP)の定式化に基づいており、公開情報に対応する状態と、特定のアクション抽象化を示す特徴ベクトルとして表される行動である。ヘッドアップノーリミット・テキサスホールディングスの実験では、RL-CFRはReBeLのレプリケーションとスラムボットを上回り、それぞれ6,4pm 11$と8,4pm 17$ mbb/handの勝利率差を示した。
論文参考訳（メタデータ） (2024-03-07T09:12:23Z)
Accelerated Fuzzy C-Means Clustering Based on New Affinity Filtering and Membership Scaling [74.85538972921917]
Fuzzy C-Means (FCM) は広く使われているクラスタリング手法である。 FCMはクラスタリングプロセスの中間から後期の段階で効率が低い。新しいアフィニティフィルタとメンバシップスケーリング(AMFCM)に基づくFCMを提案する。
論文参考訳（メタデータ） (2023-02-14T14:20:31Z)
Equivalence Analysis between Counterfactual Regret Minimization and Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。 FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文参考訳（メタデータ） (2021-10-11T02:12:25Z)
Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文参考訳（メタデータ） (2021-06-27T22:02:26Z)
NNCFR: Minimize Counterfactual Regret with Neural Networks [4.418221583366099]
本稿では, textitDeep CFRの改良版である textitNeural Network Counterfactual Regret Minimization (NNCFR) を紹介する。 textitNNCFRは、TextitDeep CFRよりも早く収束し、より安定して動作する。
論文参考訳（メタデータ） (2021-05-26T04:58:36Z)
Faster Game Solving via Predictive Blackwell Approachability: Connecting Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。 RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。 18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文参考訳（メタデータ） (2020-07-28T16:49:55Z)
Stochastic Regret Minimization in Extensive-Form Games [109.43344748069933]
Monte-Carlo counterfactual regret minimization (MCCFR) は、完全な木には大きすぎるシーケンシャルゲームを解くための最先端のアルゴリズムである。後悔の最小化手法を開発するための新しい枠組みを開発する。 MCCFRよりも優れた方法がいくつかある3つのゲームについて広範な実験を行った。
論文参考訳（メタデータ） (2020-02-19T23:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。