論文の概要: Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret
Minimization
- arxiv url: http://arxiv.org/abs/2402.11835v1
- Date: Mon, 19 Feb 2024 04:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:30:38.005916
- Title: Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret
Minimization
- Title(参考訳): ABCとして簡単:ボルツマンのQ-Learningと対実レグレレット最小化
- Authors: Luca D'Amico-Wong, Hugh Zhang, Marc Lanctot, David C. Parkes
- Abstract要約: 本稿では,Boltzmann Q-learning (BQL) と反現実的後悔最小化 (CFR) を組み合わせたベスト・オブ・ボス・ワールドズ・アルゴリズムであるABCを提案する。
ABCは、環境の報酬と遷移ダイナミクスの定常性を測定することで、どの環境を探索するかを適応的に選択する。
マルコフ決定過程において、ABCは、環境中のアクションの数であるBQLと比較して、少なくともO(A)因子の減速によって最適なポリシーに収束する。
- 参考スコア(独自算出の注目度): 25.25031447644468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ABCs (Adaptive Branching through Child stationarity), a
best-of-both-worlds algorithm combining Boltzmann Q-learning (BQL), a classic
reinforcement learning algorithm for single-agent domains, and counterfactual
regret minimization (CFR), a central algorithm for learning in multi-agent
domains. ABCs adaptively chooses what fraction of the environment to explore
each iteration by measuring the stationarity of the environment's reward and
transition dynamics. In Markov decision processes, ABCs converges to the
optimal policy with at most an O(A) factor slowdown compared to BQL, where A is
the number of actions in the environment. In two-player zero-sum games, ABCs is
guaranteed to converge to a Nash equilibrium (assuming access to a perfect
oracle for detecting stationarity), while BQL has no such guarantees.
Empirically, ABCs demonstrates strong performance when benchmarked across
environments drawn from the OpenSpiel game library and OpenAI Gym and exceeds
all prior methods in environments which are neither fully stationary nor fully
nonstationary.
- Abstract(参考訳): 本稿では,Boltzmann Q-learning(BQL)と,マルチエージェントドメインを学習する中心的アルゴリズムである反実的後悔最小化(CFR)を組み合わせた,ベスト・オブ・ボス・ワールド・アルゴリズムであるABC(Adaptive Branching through Child Staarity)を提案する。
abcsは、環境の報酬と遷移ダイナミクスの定常性を測定することによって、各イテレーションを探索する環境のどの部分を選択する。
マルコフ決定過程において、ABCは、環境中のアクションの数であるBQLと比較して、少なくともO(A)因子の減速によって最適なポリシーに収束する。
2プレイヤーのゼロサムゲームでは、ABCは(定常性を検出するための完璧なオラクルへのアクセスを仮定する)ナッシュ均衡に収束することが保証されるが、BQLはそのような保証を持っていない。
実験的に、ABCはOpenSpielゲームライブラリとOpenAI Gymから引き出された環境をベンチマークすると強い性能を示し、完全に静止的でも、完全に静止的でもない環境では、すべての従来の手法を超える。
関連論文リスト
- RLAS-BIABC: A Reinforcement Learning-Based Answer Selection Using the
BERT Model Boosted by an Improved ABC Algorithm [6.82469220191368]
回答選択(AS)は、オープンドメイン質問応答(QA)問題の重要なサブタスクである。
本稿では、注意機構に基づく長短期メモリ(LSTM)と、変換器(BERT)ワード埋め込みによる双方向エンコーダ表現に基づいて、ASのためのRLAS-BIABCと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-01-07T08:33:05Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - The Complexity of Markov Equilibrium in Stochastic Games [44.77547027158141]
一般ゲームにおける確率的定常なマルコフ粗相関平衡(CCE)の計算は、計算的に難解であることを示す。
この結果は、正確なCCEを効率的に計算可能な正規形式ゲームとは対照的である。
論文 参考訳(メタデータ) (2022-04-08T10:51:01Z) - Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games [3.441021278275805]
ゲームにおける学習は、多エージェント強化学習(MARL)における最も標準的で基本的な設定であることは間違いない。
汎用近似ゲーム(SG)の重要なクラスにおいて、完全分散Q-ラーニングアルゴリズムの有限サンプル複雑性を確立する。
我々は,各エージェントが報酬や他のエージェントの行動を観察できないような,完全に分散化されたMARLの実践的かつ挑戦的な設定に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-15T03:33:39Z) - Learning to Coordinate in Multi-Agent Systems: A Coordinated
Actor-Critic Algorithm and Finite-Time Guarantees [43.10380224532313]
本研究ではアクター・クリティカル(AC)アルゴリズムを用いて,自律エージェントによる協調行動の出現について検討する。
本稿では、個別にパラメータ化されたポリシーが共有された部分とパーソナライズされた部分を持つコーディネートされたアクタ・クリティカル・アルゴリズム(CAC)のクラスを提案し、分析する。
この研究は、部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2021-10-11T20:26:16Z) - Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers [59.06169363181417]
Predict then Interpolate (PI) は環境全体にわたって安定な相関関係を学習するためのアルゴリズムである。
正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-26T15:37:48Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。