Fugu-MT 論文翻訳(概要): PAC Reinforcement Learning Algorithm for General-Sum Markov Games

論文の概要: PAC Reinforcement Learning Algorithm for General-Sum Markov Games

arxiv url: http://arxiv.org/abs/2009.02605v1
Date: Sat, 5 Sep 2020 21:54:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-21 21:13:55.850642
Title: PAC Reinforcement Learning Algorithm for General-Sum Markov Games
Title（参考訳）: 汎用マルコフゲームのためのPAC強化学習アルゴリズム
Authors: Ashkan Zehfroosh and Herbert G. Tanner
Abstract要約: 本稿では、一般的なマルコフゲームのための新しいPAC MARLアルゴリズムを構築するために、遅延Qラーニングというアイデアを用いて、よく知られたナッシュQラーニングアルゴリズムの拡張を提供する。証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。
参考スコア（独自算出の注目度）: 5.279475826661642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a theoretical framework for probably approximately correct (PAC) multi-agent reinforcement learning (MARL) algorithms for Markov games. The paper offers an extension to the well-known Nash Q-learning algorithm, using the idea of delayed Q-learning, in order to build a new PAC MARL algorithm for general-sum Markov games. In addition to guiding the design of a provably PAC MARL algorithm, the framework enables checking whether an arbitrary MARL algorithm is PAC. Comparative numerical results demonstrate performance and robustness.
Abstract（参考訳）: 本稿では,マルチエージェント強化学習(marl)アルゴリズムを用いたマルコフゲームのための理論的枠組みを提案する。この論文は、一般的な平均マルコフゲームのための新しいpac marlアルゴリズムを構築するために、遅延q-learningのアイデアを用いて、nash q-learningアルゴリズムの拡張を提供する。証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。比較数値結果は性能とロバスト性を示している。

関連論文リスト

Multi-Instance Partial-Label Learning with Margin Adjustment [52.05053599664198]
マルチインスタンス部分ラベル学習(MIPL)は、各トレーニングサンプルを候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現する新興学習フレームワークである。既存のMIPLアルゴリズムは、しばしば注意点と予測確率のマージンを見落とし、最適以下の一般化性能をもたらす。注意点と予測確率のマージンを調整したMIPLMAというアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-22T02:47:17Z)
On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。 LLMは素晴らしい経験的成功を収めた。提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文参考訳（メタデータ） (2024-07-20T07:39:07Z)
Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文参考訳（メタデータ） (2024-04-30T06:48:56Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
A Tutorial Introduction to Reinforcement Learning [1.9544213396776275]
本稿では,強化学習(Reinforcement Learning, RL)の簡単な調査について述べる。論文の範囲にはMarkov Reward Processes、Markov Decision Processes、近似アルゴリズム、時間差分学習や$Q$-learningといった広く使われているアルゴリズムが含まれる。
論文参考訳（メタデータ） (2023-04-03T08:50:58Z)
Minimizing the Outage Probability in a Markov Decision Process [0.0]
本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。提案アルゴリズムは値反復アルゴリズムの拡張と見なすことができる。
論文参考訳（メタデータ） (2023-02-28T16:26:23Z)
Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文参考訳（メタデータ） (2022-04-29T16:53:00Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文参考訳（メタデータ） (2020-10-04T15:27:39Z)
A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文参考訳（メタデータ） (2020-09-05T21:32:42Z)
Learning LWF Chain Graphs: A Markov Blanket Discovery Approach [2.3333090554192615]
本稿では、LWF(Lauritzen-Wermuth-Frydenberg)解釈の下で、連鎖グラフ(CG)におけるマルコフ毛布のグラフィカルな特徴を提供する。 LWF CGにおけるマルコフ毛布発見のための,スケーラブルで音質の高い新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-29T16:44:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。