論文の概要: PAC Reinforcement Learning Algorithm for General-Sum Markov Games
- arxiv url: http://arxiv.org/abs/2009.02605v1
- Date: Sat, 5 Sep 2020 21:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:13:55.850642
- Title: PAC Reinforcement Learning Algorithm for General-Sum Markov Games
- Title(参考訳): 汎用マルコフゲームのためのPAC強化学習アルゴリズム
- Authors: Ashkan Zehfroosh and Herbert G. Tanner
- Abstract要約: 本稿では、一般的なマルコフゲームのための新しいPAC MARLアルゴリズムを構築するために、遅延Qラーニングというアイデアを用いて、よく知られたナッシュQラーニングアルゴリズムの拡張を提供する。
証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。
- 参考スコア(独自算出の注目度): 5.279475826661642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a theoretical framework for probably approximately
correct (PAC) multi-agent reinforcement learning (MARL) algorithms for Markov
games. The paper offers an extension to the well-known Nash Q-learning
algorithm, using the idea of delayed Q-learning, in order to build a new PAC
MARL algorithm for general-sum Markov games. In addition to guiding the design
of a provably PAC MARL algorithm, the framework enables checking whether an
arbitrary MARL algorithm is PAC. Comparative numerical results demonstrate
performance and robustness.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習(marl)アルゴリズムを用いたマルコフゲームのための理論的枠組みを提案する。
この論文は、一般的な平均マルコフゲームのための新しいpac marlアルゴリズムを構築するために、遅延q-learningのアイデアを用いて、nash q-learningアルゴリズムの拡張を提供する。
証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。
比較数値結果は性能とロバスト性を示している。
関連論文リスト
- On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - A Tutorial Introduction to Reinforcement Learning [1.9544213396776275]
本稿では,強化学習(Reinforcement Learning, RL)の簡単な調査について述べる。
論文の範囲にはMarkov Reward Processes、Markov Decision Processes、近似アルゴリズム、時間差分学習や$Q$-learningといった広く使われているアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2023-04-03T08:50:58Z) - Minimizing the Outage Probability in a Markov Decision Process [0.0]
本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。
提案アルゴリズムは値反復アルゴリズムの拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-02-28T16:26:23Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。
我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。
我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文 参考訳(メタデータ) (2020-10-04T15:27:39Z) - A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文 参考訳(メタデータ) (2020-09-05T21:32:42Z) - Learning LWF Chain Graphs: A Markov Blanket Discovery Approach [2.3333090554192615]
本稿では、LWF(Lauritzen-Wermuth-Frydenberg)解釈の下で、連鎖グラフ(CG)におけるマルコフ毛布のグラフィカルな特徴を提供する。
LWF CGにおけるマルコフ毛布発見のための,スケーラブルで音質の高い新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-29T16:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。