論文の概要: Robust Deep Monte Carlo Counterfactual Regret Minimization: Addressing Theoretical Risks in Neural Fictitious Self-Play
- arxiv url: http://arxiv.org/abs/2509.00923v1
- Date: Sun, 31 Aug 2025 16:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.464209
- Title: Robust Deep Monte Carlo Counterfactual Regret Minimization: Addressing Theoretical Risks in Neural Fictitious Self-Play
- Title(参考訳): モンテカルロディファクトレグレスト最小化のロバスト化:ニューラルフィクション自己再生における理論的リスクに対処する
- Authors: Zakaria El Jaafari,
- Abstract要約: Monte Carlo Counterfactual Regret Minimization (MCCFR) は、広義のゲームを解くための基盤となるアルゴリズムとして登場した。
本稿では,MLCFR成分の有効性がゲームスケールによってどのように変化するかについて,包括的に分析する。
提案するRobust Deep MCCFRフレームワークは,遅延更新,一様探索混合,分散対応学習目標,包括的診断監視を対象ネットワークに組み込んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Counterfactual Regret Minimization (MCCFR) has emerged as a cornerstone algorithm for solving extensive-form games, but its integration with deep neural networks introduces scale-dependent challenges that manifest differently across game complexities. This paper presents a comprehensive analysis of how neural MCCFR component effectiveness varies with game scale and proposes an adaptive framework for selective component deployment. We identify that theoretical risks such as nonstationary target distribution shifts, action support collapse, variance explosion, and warm-starting bias have scale-dependent manifestation patterns, requiring different mitigation strategies for small versus large games. Our proposed Robust Deep MCCFR framework incorporates target networks with delayed updates, uniform exploration mixing, variance-aware training objectives, and comprehensive diagnostic monitoring. Through systematic ablation studies on Kuhn and Leduc Poker, we demonstrate scale-dependent component effectiveness and identify critical component interactions. The best configuration achieves final exploitability of 0.0628 on Kuhn Poker, representing a 60% improvement over the classical framework (0.156). On the more complex Leduc Poker domain, selective component usage achieves exploitability of 0.2386, a 23.5% improvement over the classical framework (0.3703) and highlighting the importance of careful component selection over comprehensive mitigation. Our contributions include: (1) a formal theoretical analysis of risks in neural MCCFR, (2) a principled mitigation framework with convergence guarantees, (3) comprehensive multi-scale experimental validation revealing scale-dependent component interactions, and (4) practical guidelines for deployment in larger games.
- Abstract(参考訳): Monte Carlo Counterfactual Regret Minimization (MCCFR)は、幅広い形式のゲームを解くための基盤となるアルゴリズムとして登場したが、ディープニューラルネットワークとの統合により、ゲーム複雑度によって異なるスケール依存的な課題がもたらされる。
本稿では,MLCFR コンポーネントの有効性がゲーム規模によってどのように変化するのかを包括的に分析し,選択的コンポーネント配置のための適応的フレームワークを提案する。
我々は,非定常目標分布シフト,アクションサポート崩壊,分散爆発,温暖化開始バイアスなどの理論的リスクが,スケール依存的な表現パターンを持ち,小型ゲームと大規模ゲームでは異なる緩和戦略を必要とすることを確認した。
提案するRobust Deep MCCFRフレームワークは,遅延更新,一様探索混合,分散対応学習目標,包括的診断監視を対象ネットワークに組み込んでいる。
Kuhn と Leduc Poker の体系的アブレーション研究を通じて、スケール依存的なコンポーネントの有効性を示し、重要なコンポーネント相互作用を同定する。
最高の構成は、Kuhn Poker上で0.0628の最終的なエクスプロイラビリティを実現し、従来のフレームワーク(0.156)よりも60%改善されている。
より複雑なLeduc Pokerドメインでは、選択的なコンポーネントの使用は0.2386、古典的なフレームワーク(0.3703)よりも23.5%改善され、包括的な緩和よりも注意深いコンポーネント選択の重要性を強調している。
本研究の貢献は,(1) 神経性MCCFRのリスクに関する公式な理論的分析,(2) 収束保証を伴う原理的緩和フレームワーク,(3) スケール依存的なコンポーネント相互作用を明らかにする総合的マルチスケール実験的検証,(4) 大規模ゲームへの展開のための実践的ガイドラインである。
関連論文リスト
- Quantum-Informed Contrastive Learning with Dynamic Mixup Augmentation for Class-Imbalanced Expert Systems [0.0]
QCL-MixNetは、不均衡下でのロバストな分類のための動的混合のための新しいフレームワークである。
QCL-MixNetは、20の最先端の機械学習、ディープラーニング、GNNベースのベースラインをマクロF1とリコールで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-16T20:44:30Z) - Enhancing Monte Carlo Dropout Performance for Uncertainty Quantification [5.41721607488562]
ディープニューラルネットワークの出力に関連する不確実性を知ることは、信頼できる決定を行う上で最重要となる。
我々は,モンテカルロ・ドロップアウト(MCD)を,異なる検索ソリューションを統合することで拡張する革新的なフレームワークを紹介する。
提案手法は,従来の精度と不確実性の両方の観点から,平均2-3%のMCDベースラインを上回ります。
これらの結果は、安全クリティカルなアプリケーションにおけるディープラーニングモデルの信頼性を高めるためのアプローチの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-21T15:50:03Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - Attacks on Robust Distributed Learning Schemes via Sensitivity Curve
Maximization [37.464005524259356]
曲線の感度(SCM)に基づく新たな攻撃法を提案する。
我々は, 従来の頑健なアグリゲーションスキームを, 小さいが効果的な摂動を注入することで破壊できることを実証した。
論文 参考訳(メタデータ) (2023-04-27T08:41:57Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Robust Regularization with Adversarial Labelling of Perturbed Samples [22.37046166576859]
本稿では、正規化手法として、ALPS(Adversarial Labelling of Perturbed Samples)を提案する。
ALPSはニューラルネットワークを、それぞれの真正な入力サンプルを、逆向きに割り当てられたラベルとともに、別のものに向かって摂動することによって形成された合成サンプルで訓練する。
SVHN、CIFAR-10、CIFAR-100、Tiny-ImageNetのデータセットによる実験は、ALPSが最先端の正規化性能を持っていることを示している。
論文 参考訳(メタデータ) (2021-05-28T11:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。