論文の概要: Asynchronous Decentralized Q-Learning: Two Timescale Analysis By
Persistence
- arxiv url: http://arxiv.org/abs/2308.03239v1
- Date: Mon, 7 Aug 2023 01:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:39:29.259656
- Title: Asynchronous Decentralized Q-Learning: Two Timescale Analysis By
Persistence
- Title(参考訳): Asynchronous Decentralized Q-Learning: Persistenceによる2つの時間スケール分析
- Authors: Bora Yongacoglu and G\"urdal Arslan and Serdar Y\"uksel
- Abstract要約: 非定常性はマルチエージェント強化学習(MARL)における基本的な課題である。
MARLの多くの理論的進歩は、エージェントのポリシー更新を様々な方法で調整することで、非定常性の課題を避ける。
同期化により、マルチタイムスケールの手法で多くのMARLアルゴリズムを解析できるが、多くの分散アプリケーションではそのような同期は不可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-stationarity is a fundamental challenge in multi-agent reinforcement
learning (MARL), where agents update their behaviour as they learn. Many
theoretical advances in MARL avoid the challenge of non-stationarity by
coordinating the policy updates of agents in various ways, including
synchronizing times at which agents are allowed to revise their policies.
Synchronization enables analysis of many MARL algorithms via multi-timescale
methods, but such synchrony is infeasible in many decentralized applications.
In this paper, we study an asynchronous variant of the decentralized Q-learning
algorithm, a recent MARL algorithm for stochastic games. We provide sufficient
conditions under which the asynchronous algorithm drives play to equilibrium
with high probability. Our solution utilizes constant learning rates in the
Q-factor update, which we show to be critical for relaxing the synchrony
assumptions of earlier work. Our analysis also applies to asynchronous
generalizations of a number of other algorithms from the regret testing
tradition, whose performance is analyzed by multi-timescale methods that study
Markov chains obtained via policy update dynamics. This work extends the
applicability of the decentralized Q-learning algorithm and its relatives to
settings in which parameters are selected in an independent manner, and tames
non-stationarity without imposing the coordination assumptions of prior work.
- Abstract(参考訳): 非定常性はマルチエージェント強化学習(marl:multi-agent reinforcement learning)において基本的な課題である。
MARLにおける多くの理論的進歩は、エージェントのポリシー更新を様々な方法で調整することで、エージェントがポリシーを変更できる同期時間を含む非定常性の課題を避ける。
同期化はマルチタイムスケール手法による多くのMARLアルゴリズムの解析を可能にするが、多くの分散アプリケーションではそのような同期は不可能である。
本稿では,最近の確率ゲーム用marlアルゴリズムである分散q-learningアルゴリズムの非同期変種について検討する。
我々は、非同期アルゴリズムが高い確率で平衡に作用する十分な条件を提供する。
提案手法は,q-factor 更新において一定の学習率を活用し,初期の作業の同期的な仮定を緩和する上で重要であることを示した。
また,ポリシー更新のダイナミクスによって得られたマルコフ連鎖をマルチタイムスケールで解析する手法を用いて,後悔テストの伝統から得られた他のアルゴリズムの非同期一般化にも適用する。
本研究は,分散型q-learningアルゴリズムとその親和性を,パラメータが独立に選択される設定に適用し,事前作業の調整前提を課さずに非定常性を和らげる。
関連論文リスト
- Online Statistical Inference for Time-varying Sample-averaged Q-learning [2.2374171443798034]
本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。
本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。
古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Asynchronous Actor-Critic for Multi-Agent Reinforcement Learning [19.540926205375857]
現実的な設定で複数のエージェント間で決定を同期することは、エージェントが他のエージェントが終了し、終了について確実に通信するのを待つ必要があるため、問題となる。
エージェントが3つの標準トレーニングパラダイムで非同期ポリシーを直接最適化できる非同期マルチエージェントアクター批判手法のセットを定式化する。
論文 参考訳(メタデータ) (2022-09-20T16:36:23Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games [3.441021278275805]
ゲームにおける学習は、多エージェント強化学習(MARL)における最も標準的で基本的な設定であることは間違いない。
汎用近似ゲーム(SG)の重要なクラスにおいて、完全分散Q-ラーニングアルゴリズムの有限サンプル複雑性を確立する。
我々は,各エージェントが報酬や他のエージェントの行動を観察できないような,完全に分散化されたMARLの実践的かつ挑戦的な設定に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-15T03:33:39Z) - Coding for Distributed Multi-Agent Reinforcement Learning [12.366967700730449]
ストラグラーは、様々なシステム障害が存在するため、分散学習システムで頻繁に発生する。
本稿では,ストラグラーの存在下でのMARLアルゴリズムの学習を高速化する分散学習フレームワークを提案する。
最大距離分離可能(MDS)コード、ランダムスパースコード、レプリケーションベースのコード、通常の低密度パリティチェック(LDPC)コードなど、さまざまなコーディングスキームも検討されている。
論文 参考訳(メタデータ) (2021-01-07T00:22:34Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。