論文の概要: Decentralized Multi-Agent Reinforcement Learning for Continuous-Space
Stochastic Games
- arxiv url: http://arxiv.org/abs/2303.13539v1
- Date: Thu, 16 Mar 2023 14:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:25:49.436098
- Title: Decentralized Multi-Agent Reinforcement Learning for Continuous-Space
Stochastic Games
- Title(参考訳): 連続空間確率ゲームのための分散マルチエージェント強化学習
- Authors: Awni Altabaa, Bora Yongacoglu, Serdar Y\"uksel
- Abstract要約: 汎用状態空間を分散化したゲームにおけるマルチエージェント学習と,エージェントが互いの行動を観察しない情報構造について検討する。
我々は,MARLアルゴリズムを提案し,そのポリシー更新のほぼ最適性を証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic games are a popular framework for studying multi-agent
reinforcement learning (MARL). Recent advances in MARL have focused primarily
on games with finitely many states. In this work, we study multi-agent learning
in stochastic games with general state spaces and an information structure in
which agents do not observe each other's actions. In this context, we propose a
decentralized MARL algorithm and we prove the near-optimality of its policy
updates. Furthermore, we study the global policy-updating dynamics for a
general class of best-reply based algorithms and derive a closed-form
characterization of convergence probabilities over the joint policy space.
- Abstract(参考訳): 確率ゲームはマルチエージェント強化学習(MARL)を研究するための一般的なフレームワークである。
MARLの最近の進歩は、主に有限状態のゲームに焦点を当てている。
本研究では,一般状態空間を持つ確率ゲームにおけるマルチエージェント学習と,エージェント同士の行動を観察しない情報構造について検討する。
この文脈では,分散marlアルゴリズムを提案し,ポリシー更新のほぼ最適性を証明する。
さらに,ベストリプライベースアルゴリズムの一般クラスにおける大域的政策上昇ダイナミクスを研究し,合同政策空間上の収束確率の閉形式的特徴付けを導出する。
関連論文リスト
- Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games [3.8779763612314633]
一般的なマルコフゲームにおける学習アルゴリズムの特性について検討する。
特に,各エージェントがアクター批判学習を動的に採用する分散アルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-09-06T20:49:11Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Regularize! Don't Mix: Multi-Agent Reinforcement Learning without
Explicit Centralized Structures [8.883885464358737]
Em Multi-Agent Regularized Q-learning (MARQ) と呼ばれる明示的な協調構造を学習するのではなく、正規化を用いたマルチエージェント強化学習を提案する。
提案アルゴリズムは,複数のベンチマークマルチエージェント環境において評価され,MARQが複数のベースラインや最先端のアルゴリズムより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-09-19T00:58:38Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。