論文の概要: Finite-Time Analysis of Minimax Q-Learning for Two-Player Zero-Sum
Markov Games: Switching System Approach
- arxiv url: http://arxiv.org/abs/2306.05700v1
- Date: Fri, 9 Jun 2023 06:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:27:04.448660
- Title: Finite-Time Analysis of Minimax Q-Learning for Two-Player Zero-Sum
Markov Games: Switching System Approach
- Title(参考訳): 2プレイヤーゼロサムマルコフゲームにおけるミニマックスQラーニングの有限時間解析:スイッチングシステムアプローチ
- Authors: Donghwan Lee
- Abstract要約: 本稿では,2プレイヤーゼロサムマルコフゲームに適用したQ-ラーニングアルゴリズムの有限時間解析について検討する。
ミニマックスQ-ラーニングのスイッチングシステムモデルと関連する値反復を用いる。
- 参考スコア(独自算出の注目度): 3.5823366350053325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to investigate the finite-time analysis of a
Q-learning algorithm applied to two-player zero-sum Markov games. Specifically,
we establish a finite-time analysis of both the minimax Q-learning algorithm
and the corresponding value iteration method. To enhance the analysis of both
value iteration and Q-learning, we employ the switching system model of minimax
Q-learning and the associated value iteration. This approach provides further
insights into minimax Q-learning and facilitates a more straightforward and
insightful convergence analysis. We anticipate that the introduction of these
additional insights has the potential to uncover novel connections and foster
collaboration between concepts in the fields of control theory and
reinforcement learning communities.
- Abstract(参考訳): 本稿では,2人のゼロサムマルコフゲームに適用したqラーニングアルゴリズムの有限時間解析について検討する。
具体的には,ミニマックスQ-ラーニングアルゴリズムと対応する値反復法の両方を有限時間で解析する。
価値反復とq学習の両方の分析を強化するため、minimax q-learningのスイッチングシステムモデルと関連する価値反復を用いる。
このアプローチは、ミニマックスQ学習に関するさらなる洞察を与え、より単純で洞察に富んだ収束分析を促進する。
これらの追加的な洞察の導入は、制御理論と強化学習コミュニティの分野における概念間の新しいつながりを解明し、協調を促進する可能性を期待する。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Unified ODE Analysis of Smooth Q-Learning Algorithms [5.152147416671501]
近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。
スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
論文 参考訳(メタデータ) (2024-04-20T01:16:27Z) - Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [4.36117236405564]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - Finite-Time Analysis of Asynchronous Q-learning under Diminishing
Step-Size from Control-Theoretic View [3.5823366350053325]
本稿ではマルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析について検討する。
特に、ステップサイズを小さくしたQラーニングの離散時間時間変化切替システムモデルを提案する。
提案された分析は、さらなる洞察をもたらし、異なるシナリオをカバーし、分析のための新しい簡易テンプレートを提供する。
論文 参考訳(メタデータ) (2022-07-25T14:15:55Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。