論文の概要: RLCFR: Minimize Counterfactual Regret by Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.06373v1
- Date: Thu, 10 Sep 2020 14:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 03:09:15.846205
- Title: RLCFR: Minimize Counterfactual Regret by Deep Reinforcement Learning
- Title(参考訳): RLCFR: 深層強化学習による対実回帰の最小化
- Authors: Huale Li, Xuan Wang, Fengwei Jia, Yifan Li, Yulin Wu, Jiajia Zhang,
Shuhan Qi
- Abstract要約: 本稿では,CFR法の一般化能力の向上を目的としたRCCFRフレームワークを提案する。
RLCFRでは、強化学習フレームワークにおいて、CFRによってゲーム戦略が解決される。
提案手法であるRCCFRは,繰り返し更新の過程において,適切な後悔の方法を選択するためのポリシーを学習する。
- 参考スコア(独自算出の注目度): 15.126468724917288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual regret minimization (CFR) is a popular method to deal with
decision-making problems of two-player zero-sum games with imperfect
information. Unlike existing studies that mostly explore for solving larger
scale problems or accelerating solution efficiency, we propose a framework,
RLCFR, which aims at improving the generalization ability of the CFR method. In
the RLCFR, the game strategy is solved by the CFR in a reinforcement learning
framework. And the dynamic procedure of iterative interactive strategy updating
is modeled as a Markov decision process (MDP). Our method, RLCFR, then learns a
policy to select the appropriate way of regret updating in the process of
iteration. In addition, a stepwise reward function is formulated to learn the
action policy, which is proportional to how well the iteration strategy is at
each step. Extensive experimental results on various games have shown that the
generalization ability of our method is significantly improved compared with
existing state-of-the-art methods.
- Abstract(参考訳): counterfactual regret minimization (cfr) は、2人のプレイヤーが不完全な情報を持つゼロサムゲームの意思決定問題に対処する一般的な方法である。
大規模問題の解決や解の高速化を主な目的とする既存の研究とは異なり, CFR法の一般化能力向上を目的としたRCCFRフレームワークを提案する。
RLCFRでは、強化学習フレームワークにおいて、CFRによってゲーム戦略が解決される。
また、反復的インタラクティブ戦略更新の動的手順をマルコフ決定プロセス(MDP)としてモデル化する。
提案手法であるRCCFRは,繰り返し更新の過程において,適切な後悔の方法を選択するためのポリシーを学習する。
さらに、ステップワイズ報酬関数が定式化され、各ステップにおけるイテレーション戦略の良さに比例するアクションポリシーが学習される。
様々なゲームにおける広範囲な実験結果から,本手法の一般化能力は既存手法と比較して著しく向上することが示された。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes [12.76843681997386]
ポリシー最適化(PO)手法は、実際に最も人気のある強化学習(RL)アルゴリズムの一つである。
本稿では,線形マルコフ決定過程 (MDP) モデルに基づくPOアルゴリズムを提案する。
我々のアルゴリズムは、問題の他のパラメータへの依存性を改善して後悔する。
論文 参考訳(メタデータ) (2024-07-03T12:36:24Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。