論文の概要: RL-CFR: Improving Action Abstraction for Imperfect Information
Extensive-Form Games with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.04344v1
- Date: Thu, 7 Mar 2024 09:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:34:56.637555
- Title: RL-CFR: Improving Action Abstraction for Imperfect Information
Extensive-Form Games with Reinforcement Learning
- Title(参考訳): RL-CFR:強化学習による不完全な情報集約型ゲームのためのアクション抽象化の改善
- Authors: Boning Li, Zhixuan Fang and Longbo Huang
- Abstract要約: 動的動作抽象化のための新しい強化学習(RL)手法であるRL-CFRを紹介する。
RL-CFRは、我々の革新的なマルコフ決定プロセス(MDP)の定式化に基づいており、公開情報に対応する状態と、特定のアクション抽象化を示す特徴ベクトルとして表される行動である。
ヘッドアップノーリミット・テキサスホールディングスの実験では、RL-CFRはReBeLのレプリケーションとスラムボットを上回り、それぞれ6,4pm 11$と8,4pm 17$ mbb/handの勝利率差を示した。
- 参考スコア(独自算出の注目度): 42.80561441946148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective action abstraction is crucial in tackling challenges associated
with large action spaces in Imperfect Information Extensive-Form Games
(IIEFGs). However, due to the vast state space and computational complexity in
IIEFGs, existing methods often rely on fixed abstractions, resulting in
sub-optimal performance. In response, we introduce RL-CFR, a novel
reinforcement learning (RL) approach for dynamic action abstraction. RL-CFR
builds upon our innovative Markov Decision Process (MDP) formulation, with
states corresponding to public information and actions represented as feature
vectors indicating specific action abstractions. The reward is defined as the
expected payoff difference between the selected and default action
abstractions. RL-CFR constructs a game tree with RL-guided action abstractions
and utilizes counterfactual regret minimization (CFR) for strategy derivation.
Impressively, it can be trained from scratch, achieving higher expected payoff
without increased CFR solving time. In experiments on Heads-up No-limit Texas
Hold'em, RL-CFR outperforms ReBeL's replication and Slumbot, demonstrating
significant win-rate margins of $64\pm 11$ and $84\pm 17$ mbb/hand,
respectively.
- Abstract(参考訳): 効果的なアクション抽象化は、不完全な情報集約型ゲーム(IIEFG)における大きなアクション空間に関連する課題に取り組む上で重要である。
しかし、IIEFGの膨大な状態空間と計算複雑性のため、既存の手法はしばしば固定された抽象化に依存し、結果として準最適性能をもたらす。
動的動作抽象化のための新しい強化学習(RL)手法であるRL-CFRを導入する。
RL-CFRは、我々の革新的なマルコフ決定プロセス(MDP)の定式化に基づいており、公開情報に対応する状態と、特定のアクション抽象化を示す特徴ベクトルとして表される行動である。
報酬は、選択されたアクション抽象化とデフォルトのアクション抽象化の相違として定義される。
RL-CFRは、RL誘導されたアクション抽象化を備えたゲームツリーを構築し、戦略導出に対実的後悔最小化(CFR)を利用する。
驚くべきことに、scratchからトレーニングでき、cfrの解決時間を増やすことなく、高い期待ペイオフを達成できる。
ヘッドアップノーリミット・テキサスホールディングスの実験では、RL-CFRはReBeLのレプリケーションとスラムボットを上回り、それぞれ6,4\pm 11$と8,4\pm 17$ mbb/handの勝利率差を示した。
関連論文リスト
- Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - EventRL: Enhancing Event Extraction with Outcome Supervision for Large
Language Models [48.136950450053476]
EventRLは、大規模言語モデル(LLM)のイベント抽出を強化するために開発された強化学習手法である。
FSP(Few-Shot Prompting)やSFT(Supervised Fine-Tuning)といった既存手法に対するEventRLの評価を行った。
以上の結果から,EventRLはイベントの識別・構造化性能を向上させることにより,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-18T02:41:06Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - CODEX: A Cluster-Based Method for Explainable Reinforcement Learning [0.0]
本稿では,状態-作用空間におけるRLエージェントの挙動を効果的に要約できる意味的クラスタリングを取り入れた手法を提案する。
MiniGridとStarCraft IIのゲーム環境での実験では、セマンティッククラスタは時間的およびエンティティ情報を保持する。
論文 参考訳(メタデータ) (2023-12-07T11:04:37Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Data-Driven Evaluation of Training Action Space for Reinforcement
Learning [1.370633147306388]
本稿では,行動空間の分類とランク付けを訓練するためのShapleyに着想を得た方法論を提案する。
指数時間シェープ計算を減らすため、モンテカルロシミュレーションを含む。
提案したデータ駆動手法は、異なるドメイン、ユースケース、強化学習アルゴリズムへのRLである。
論文 参考訳(メタデータ) (2022-04-08T04:53:43Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - RLCFR: Minimize Counterfactual Regret by Deep Reinforcement Learning [15.126468724917288]
本稿では,CFR法の一般化能力の向上を目的としたRCCFRフレームワークを提案する。
RLCFRでは、強化学習フレームワークにおいて、CFRによってゲーム戦略が解決される。
提案手法であるRCCFRは,繰り返し更新の過程において,適切な後悔の方法を選択するためのポリシーを学習する。
論文 参考訳(メタデータ) (2020-09-10T14:20:33Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。