論文の概要: Local and adaptive mirror descents in extensive-form games
- arxiv url: http://arxiv.org/abs/2309.00656v1
- Date: Fri, 1 Sep 2023 09:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:56:37.835406
- Title: Local and adaptive mirror descents in extensive-form games
- Title(参考訳): 広域ゲームにおける局所的および適応的ミラー降下
- Authors: C\^ome Fiegel, Pierre M\'enard, Tadashi Kozuno, R\'emi Munos, Vianney
Perchet, Michal Valko
- Abstract要約: 我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
- 参考スコア(独自算出の注目度): 37.04094644847904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to learn $\epsilon$-optimal strategies in zero-sum imperfect
information games (IIG) with trajectory feedback. In this setting, players
update their policies sequentially based on their observations over a fixed
number of episodes, denoted by $T$. Existing procedures suffer from high
variance due to the use of importance sampling over sequences of actions
(Steinberger et al., 2020; McAleer et al., 2022). To reduce this variance, we
consider a fixed sampling approach, where players still update their policies
over time, but with observations obtained through a given fixed sampling
policy. Our approach is based on an adaptive Online Mirror Descent (OMD)
algorithm that applies OMD locally to each information set, using individually
decreasing learning rates and a regularized loss. We show that this approach
guarantees a convergence rate of $\tilde{\mathcal{O}}(T^{-1/2})$ with high
probability and has a near-optimal dependence on the game parameters when
applied with the best theoretical choices of learning rates and sampling
policies. To achieve these results, we generalize the notion of OMD
stabilization, allowing for time-varying regularization with convex increments.
- Abstract(参考訳): ゼロサム不完全な情報ゲーム (IIG) において, 軌道フィードバックを用いて$\epsilon$-Optimal戦略を学習する方法を検討する。
この設定では、プレイヤーは一定数のエピソード($t$)で観察に基づいてポリシーを順次更新する。
既存の手順は、アクションのシーケンスの重要サンプリング(Steinberger et al., 2020; McAleer et al., 2022)の使用により、高いばらつきに悩まされている。
このばらつきを減らすため、プレイヤーは時間とともにポリシーを更新するが、所定のサンプリングポリシーによって観察される固定サンプリングアプローチを検討する。
提案手法は,学習率の個人化と正規化損失を用いて,OMDを各情報集合に局所的に適用する適応型オンラインミラードライザー(OMD)アルゴリズムに基づく。
提案手法は,高い確率で$\tilde{\mathcal{O}}(T^{-1/2})$の収束率を保証し,学習率とサンプリングポリシーの最良の理論的選択を適用した場合にゲームパラメータにほぼ最適に依存することを示す。
これらの結果を達成するために、omd安定化の概念を一般化し、凸インクリメントによる時変正規化を可能にする。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Adaptively Perturbed Mirror Descent for Learning in Games [10.868347525353293]
本稿では,ペイオフ関数の勾配が単調なゲームにおいて,ミラーDescent(MD)アルゴリズムに対するペイオフ摂動手法を提案する。
その結果,アルゴリズムの収束が著しく加速していることが判明した。
論文 参考訳(メタデータ) (2023-05-26T04:02:54Z) - Uncertainty Voting Ensemble for Imbalanced Deep Regression [20.176217123752465]
本稿では,不均衡なデータから学習するUVOTEを紹介する。
従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。
UVOTEは先行技術より一貫して優れており、同時に精度のよい不確実性評価が得られている。
論文 参考訳(メタデータ) (2023-05-24T14:12:21Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Block Policy Mirror Descent [40.2022466644885]
ブロックポリシミラー降下(BPMD)という新しいポリシークラス(PG)手法を提案する。
BPMDは、強い凸正則化を伴う正規化強化学習(RL)のクラスを解決するために用いられる。
強化学習におけるポリシー最適化のために,ブロック座標降下法が開発され,解析されたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-15T04:42:02Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。