Fugu-MT 論文翻訳(概要): A Multi-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games

論文の概要: A Multi-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games

arxiv url: http://arxiv.org/abs/2407.04240v2
Date: Sun, 13 Oct 2024 04:24:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 23:57:53.446323
Title: A Multi-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games
Title（参考訳）: 2プレイヤーゼロサムマルコフゲームのためのマルチステップミニマックスQラーニングアルゴリズム
Authors: Shreyas S R, Antony Vijesh,
Abstract要約: 2人のプレイヤーによるゼロサムマルコフゲームを解決するため、興味深い反復手順が提案されている。提案した2段階のミニマックスQ-ラーニングのほぼ確実に収束が理論的に得られる。数値シミュレーションは,提案アルゴリズムが有効で実装が容易であることを認証する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An interesting iterative procedure is proposed to solve a two-player zero-sum Markov games. Under suitable assumption, the boundedness of the proposed iterates is obtained theoretically. Using results from stochastic approximation, the almost sure convergence of the proposed two-step minimax Q-learning is obtained theoretically. More specifically, the proposed algorithm converges to the game theoretic optimal value with probability one, when the model information is not known. Numerical simulation authenticate that the proposed algorithm is effective and easy to implement.
Abstract（参考訳）: 2人のプレイヤーによるゼロサムマルコフゲームを解決するため、興味深い反復手順が提案されている。適切な仮定の下では、提案された反復の有界性は理論的に得られる。確率近似の結果を用いて、提案した2段階のミニマックスQ-ラーニングのほぼ確実に収束する。より具体的には、モデル情報が不明な場合、提案アルゴリズムは確率1とゲーム理論最適値に収束する。数値シミュレーションは,提案アルゴリズムが有効で実装が容易であることを認証する。

関連論文リスト

A quantum algorithm for advection-diffusion equation by a probabilistic imaginary-time evolution operator [0.0]
本稿では, 線形対流拡散方程式を, 新しい近似確率的想像時間進化(PITE)演算子を用いて解く量子アルゴリズムを提案する。我々は, 対流拡散方程式から得られるハミルトニアンの想像時間進化を実現するために, 明示的な量子回路を構築した。我々のアルゴリズムは、Harrow-Hassidim-Lloyd (HHL)アルゴリズムに匹敵する結果を与える。
論文参考訳（メタデータ） (2024-09-27T08:56:21Z)
Vertex Exchange Method for a Class of Quadratic Programming Problems [12.280568814649838]
一般化された単純点への射影を計算するための高効率半平滑なニュートン法を提案し,解析する。提案アルゴリズムの優れた実用性能は, 広範囲な数値実験によって実証された。
論文参考訳（メタデータ） (2024-07-03T17:28:17Z)
Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文参考訳（メタデータ） (2024-07-02T15:39:00Z)
Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文参考訳（メタデータ） (2023-08-17T08:34:58Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文参考訳（メタデータ） (2022-10-30T22:58:22Z)
Reinforcement Learning with Unbiased Policy Evaluation and Linear Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文参考訳（メタデータ） (2022-10-13T20:16:19Z)
Learning Two-Player Mixture Markov Games: Kernel Function Approximation and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-10T14:21:54Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
SONIA: A Symmetric Blockwise Truncated Optimization Algorithm [2.9923891863939938]
本研究は, 経験的リスクに対する新しいアルゴリズムを提案する。このアルゴリズムは、一部分空間における二階探索型更新を計算し、1階探索法と2階探索法の間のギャップを埋める。
論文参考訳（メタデータ） (2020-06-06T19:28:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。