論文の概要: Accelerating Nash Equilibrium Convergence in Monte Carlo Settings Through Counterfactual Value Based Fictitious Play
- arxiv url: http://arxiv.org/abs/2309.03084v4
- Date: Sun, 27 Oct 2024 09:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:15:42.652653
- Title: Accelerating Nash Equilibrium Convergence in Monte Carlo Settings Through Counterfactual Value Based Fictitious Play
- Title(参考訳): モンテカルロ環境におけるナッシュ平衡収束の促進
- Authors: Ju Qi, Falin Hei, Ting Feng, Dengbing Yi, Zhemei Fang, Yunfeng Luo,
- Abstract要約: MCCFVFPと呼ばれる不完全な情報ゲームを解決するための新しいMCベースのアルゴリズムを提案する。
MCCFVFPは、CFRの反実値計算と架空のプレイのベストレスポンス戦略を組み合わせる。
その結果,MCCFVFPは最も先進的なMCCFRよりも約20%$sim$50%速かった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Counterfactual Regret Minimization (CFR) and its variants are widely recognized as effective algorithms for solving extensive-form imperfect information games. Recently, many improvements have been focused on enhancing the convergence speed of the CFR algorithm. However, most of these variants are not applicable under Monte Carlo (MC) conditions, making them unsuitable for training in large-scale games. We introduce a new MC-based algorithm for solving extensive-form imperfect information games, called MCCFVFP (Monte Carlo Counterfactual Value-Based Fictitious Play). MCCFVFP combines CFR's counterfactual value calculations with fictitious play's best response strategy, leveraging the strengths of fictitious play to gain significant advantages in games with a high proportion of dominated strategies. Experimental results show that MCCFVFP achieved convergence speeds approximately 20\%$\sim$50\% faster than the most advanced MCCFR variants in games like poker and other test games.
- Abstract(参考訳): ファクトファクトレグレスト最小化(CFR)とその変種は、広範な不完全な情報ゲームを解決する効果的なアルゴリズムとして広く認識されている。
近年,CFRアルゴリズムの収束速度の向上に多くの改良が加えられている。
しかし、これらの変種のほとんどはモンテカルロ(MC)条件下では適用できないため、大規模なゲームでのトレーニングには適さない。
本稿では,MCCFVFP(Monte Carlo Counterfactual Value-Based Fictitious Play)と呼ばれる,大規模な不完全な情報ゲームを解決するためのMCベースの新しいアルゴリズムを提案する。
MCCFVFPは、CFRの対実値計算と架空のプレイの最良のレスポンス戦略を組み合わせ、架空のプレイの強みを活用して、支配的な戦略の比率の高いゲームにおいて大きなアドバンテージを得る。
実験結果から,MCCFVFPはポーカーやその他のテストゲームにおいて最も先進的なMCCFR変種よりも約20\%$\sim$50\%の収束速度を達成した。
関連論文リスト
- Minimizing Weighted Counterfactual Regret with Optimistic Online Mirror Descent [44.080852682765276]
本研究は,楽観的オンラインミラードライザー(OMD)による重み付き反事実的後悔の最小化を探求する。
PCFR+とDiscounted CFR(DCFR)を原則的に統合し、支配的な作用の負の効果を迅速に緩和する。
PDCFR+は不完全情報ゲームにおいて高速収束を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-04-22T05:37:22Z) - RL-CFR: Improving Action Abstraction for Imperfect Information
Extensive-Form Games with Reinforcement Learning [42.80561441946148]
動的動作抽象化のための新しい強化学習(RL)手法であるRL-CFRを紹介する。
RL-CFRは、我々の革新的なマルコフ決定プロセス(MDP)の定式化に基づいており、公開情報に対応する状態と、特定のアクション抽象化を示す特徴ベクトルとして表される行動である。
ヘッドアップノーリミット・テキサスホールディングスの実験では、RL-CFRはReBeLのレプリケーションとスラムボットを上回り、それぞれ6,4pm 11$と8,4pm 17$ mbb/handの勝利率差を示した。
論文 参考訳(メタデータ) (2024-03-07T09:12:23Z) - Accelerated Fuzzy C-Means Clustering Based on New Affinity Filtering and
Membership Scaling [74.85538972921917]
Fuzzy C-Means (FCM) は広く使われているクラスタリング手法である。
FCMはクラスタリングプロセスの中間から後期の段階で効率が低い。
新しいアフィニティフィルタとメンバシップスケーリング(AMFCM)に基づくFCMを提案する。
論文 参考訳(メタデータ) (2023-02-14T14:20:31Z) - Equivalence Analysis between Counterfactual Regret Minimization and
Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。
FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。
本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-10-11T02:12:25Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Faster Game Solving via Predictive Blackwell Approachability: Connecting
Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。
RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。
18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文 参考訳(メタデータ) (2020-07-28T16:49:55Z) - Stochastic Regret Minimization in Extensive-Form Games [109.43344748069933]
Monte-Carlo counterfactual regret minimization (MCCFR) は、完全な木には大きすぎるシーケンシャルゲームを解くための最先端のアルゴリズムである。
後悔の最小化手法を開発するための新しい枠組みを開発する。
MCCFRよりも優れた方法がいくつかある3つのゲームについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-02-19T23:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。