論文の概要: Hyperparameter Tricks in Multi-Agent Reinforcement Learning: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2102.03479v1
- Date: Sat, 6 Feb 2021 02:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:57:01.065922
- Title: Hyperparameter Tricks in Multi-Agent Reinforcement Learning: An
Empirical Study
- Title(参考訳): マルチエージェント強化学習におけるハイパーパラメータトリックス:実証的研究
- Authors: Jian Hu, Haibin Wu, Seth Austin Harding, Shih-wei Liao
- Abstract要約: 我々は,最先端の協調型多エージェント深層強化学習アルゴリズムについて検討・比較を行った。
QMIXは、StarCraft Multi-Agent Challenge (SMAC)のすべてのハードおよび超ハードシナリオにおいて、異常に高い勝利率を達成することができ、最先端(SOTA)を達成することができる。
- 参考スコア(独自算出の注目度): 5.811502603310249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, multi-agent deep reinforcement learning has been
successfully applied to various complicated scenarios such as computer games
and robot swarms. We thoroughly study and compare the state-of-the-art
cooperative multi-agent deep reinforcement learning algorithms. Specifically,
we investigate the consequences of the "hyperparameter tricks" of QMIX and its
improved variants. Our results show that: (1) The significant performance
improvements of these variant algorithms come from hyperparameter-level
optimizations in their open-source codes (2) After modest tuning and with no
changes to the network architecture, QMIX can attain extraordinarily high win
rates in all hard and super hard scenarios of StarCraft Multi-Agent Challenge
(SMAC) and achieve state-of-the-art (SOTA). In this work, we proposed a
reliable QMIX benchmark, which will be of great benefit to subsequent research.
Besides, we proposed a hypothesis to explain the excellent performance of QMIX.
- Abstract(参考訳): 近年,コンピュータゲームやロボット群といった複雑なシナリオに対して,マルチエージェントによる深層強化学習が成功している。
最先端の協調マルチエージェント深層強化学習アルゴリズムを徹底的に研究し、比較します。
具体的には、qmixの"ハイパーパラメータトリック"とその改良版の結果について検討する。
その結果,(1) オープンソースコードのハイパーパラメータレベルの最適化による性能向上(2) モデムチューニングとネットワークアーキテクチャの変更がなく,QMIX は StarCraft Multi-Agent Challenge (SMAC) のすべてのハードおよび超ハードシナリオにおいて極めて高い勝利率を得ることができ,SOTA (State-of-the-art) を達成することができることがわかった。
そこで本研究では, 信頼性の高いQMIXベンチマークを提案する。
さらに,QMIXの優れた性能を説明する仮説を提案した。
関連論文リスト
- MG-Net: Learn to Customize QAOA with Circuit Depth Awareness [51.78425545377329]
量子近似最適化アルゴリズム(QAOA)とその変種は、最適化問題に対処する大きな可能性を示している。
良好な性能を実現するために必要な回路深度は問題固有であり、しばしば現在の量子デバイスの最大容量を超える。
ミキサジェネレータネットワーク (MG-Net) は, 最適ミキサハミルトニアンを動的に定式化するための統合ディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2024-09-27T12:28:18Z) - MLQAOA: Graph Learning Accelerated Hybrid Quantum-Classical Multilevel QAOA [0.7560883489000579]
本稿では,大規模グラフ最大カットインスタンスに対処するため,スペクトルグラフ表現学習型アクセラレータを用いたマルチレベルアルゴリズムを提案する。
より高速な時間で高品質なソリューションを実現することにより,多段階のQAOAと,非常に大きなグラフに対する表現学習に基づくアプローチの可能性を実証する。
論文 参考訳(メタデータ) (2024-04-22T17:58:13Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Quantum circuit architecture search on a superconducting processor [56.04169357427682]
変分量子アルゴリズム(VQA)は、ファイナンス、機械学習、化学といった様々な分野において、証明可能な計算上の優位性を得るための強力な証拠を示している。
しかし、現代のVQAで利用されるアンザッツは、表現性と訓練性の間のトレードオフのバランスをとることができない。
8量子ビット超伝導量子プロセッサ上でVQAを強化するために,効率的な自動アンサッツ設計技術を適用した最初の実証実験を実証する。
論文 参考訳(メタデータ) (2022-01-04T01:53:42Z) - Value Function Factorisation with Hypergraph Convolution for Cooperative
Multi-agent Reinforcement Learning [32.768661516953344]
本稿では,ハイパーグラフ畳み込みと値分解を組み合わせた手法を提案する。
アクション値を信号として扱うことで、HGCN-Mixは、自己学習ハイパーグラフを通じて、これらの信号間の関係を探究することを目指している。
実験結果から,HGCN-MixはStarCraft II Multi-agent Challenge (SMAC)ベンチマークにおいて,最先端技術と一致するか,あるいは超えていることがわかった。
論文 参考訳(メタデータ) (2021-12-09T08:40:38Z) - Towards Multi-Agent Reinforcement Learning using Quantum Boltzmann
Machines [2.015864965523243]
我々は、より困難な問題を解決するために、オリジナルの概念の拡張を提案する。
我々は、経験的なリプレイバッファを追加し、ターゲットとポリシーの値を近似するために異なるネットワークを使用します。
量子サンプリングは、強化学習タスクには有望な方法であることが証明されているが、現在はQPUサイズによって制限されている。
論文 参考訳(メタデータ) (2021-09-22T17:59:24Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。