論文の概要: PAC Reinforcement Learning Algorithm for General-Sum Markov Games
- arxiv url: http://arxiv.org/abs/2009.02605v1
- Date: Sat, 5 Sep 2020 21:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:13:55.850642
- Title: PAC Reinforcement Learning Algorithm for General-Sum Markov Games
- Title(参考訳): 汎用マルコフゲームのためのPAC強化学習アルゴリズム
- Authors: Ashkan Zehfroosh and Herbert G. Tanner
- Abstract要約: 本稿では、一般的なマルコフゲームのための新しいPAC MARLアルゴリズムを構築するために、遅延Qラーニングというアイデアを用いて、よく知られたナッシュQラーニングアルゴリズムの拡張を提供する。
証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。
- 参考スコア(独自算出の注目度): 5.279475826661642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a theoretical framework for probably approximately
correct (PAC) multi-agent reinforcement learning (MARL) algorithms for Markov
games. The paper offers an extension to the well-known Nash Q-learning
algorithm, using the idea of delayed Q-learning, in order to build a new PAC
MARL algorithm for general-sum Markov games. In addition to guiding the design
of a provably PAC MARL algorithm, the framework enables checking whether an
arbitrary MARL algorithm is PAC. Comparative numerical results demonstrate
performance and robustness.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習(marl)アルゴリズムを用いたマルコフゲームのための理論的枠組みを提案する。
この論文は、一般的な平均マルコフゲームのための新しいpac marlアルゴリズムを構築するために、遅延q-learningのアイデアを用いて、nash q-learningアルゴリズムの拡張を提供する。
証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。
比較数値結果は性能とロバスト性を示している。
関連論文リスト
- Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - A Tutorial Introduction to Reinforcement Learning [1.9544213396776275]
本稿では,強化学習(Reinforcement Learning, RL)の簡単な調査について述べる。
論文の範囲にはMarkov Reward Processes、Markov Decision Processes、近似アルゴリズム、時間差分学習や$Q$-learningといった広く使われているアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2023-04-03T08:50:58Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - Minimizing the Outage Probability in a Markov Decision Process [0.0]
本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。
提案アルゴリズムは値反復アルゴリズムの拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-02-28T16:26:23Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。
我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。
我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文 参考訳(メタデータ) (2020-10-04T15:27:39Z) - A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文 参考訳(メタデータ) (2020-09-05T21:32:42Z) - Learning LWF Chain Graphs: A Markov Blanket Discovery Approach [2.3333090554192615]
本稿では、LWF(Lauritzen-Wermuth-Frydenberg)解釈の下で、連鎖グラフ(CG)におけるマルコフ毛布のグラフィカルな特徴を提供する。
LWF CGにおけるマルコフ毛布発見のための,スケーラブルで音質の高い新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-29T16:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。