論文の概要: Maximum Correntropy Value Decomposition for Multi-agent Deep
Reinforcemen Learning
- arxiv url: http://arxiv.org/abs/2208.03663v1
- Date: Sun, 7 Aug 2022 08:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 14:18:18.953034
- Title: Maximum Correntropy Value Decomposition for Multi-agent Deep
Reinforcemen Learning
- Title(参考訳): 多エージェント深部強化学習のための最大コレントロピー値分解
- Authors: Kai Liu, Tianxian Zhang, Lingjiang Kong
- Abstract要約: 本稿では,最大コレントロピー基準(MCC)をコスト関数として導入し,報酬分布における最小値の影響を解消するために重量を動的に適応させる。
OMGで行った予備実験では、MCVDはカーネル帯域幅選択の許容度が大きい非単調値分解問題に対処できることを示した。
- 参考スコア(独自算出の注目度): 4.743243072814404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore value decomposition solutions for multi-agent deep reinforcement
learning in the popular paradigm of centralized training with decentralized
execution(CTDE). As the recognized best solution to CTDE, Weighted QMIX is
cutting-edge on StarCraft Multi-agent Challenge (SMAC), with a weighting scheme
implemented on QMIX to place more emphasis on the optimal joint actions.
However, the fixed weight requires manual tuning according to the application
scenarios, which painfully prevents Weighted QMIX from being used in broader
engineering applications. In this paper, we first demonstrate the flaw of
Weighted QMIX using an ordinary One-Step Matrix Game (OMG), that no matter how
the weight is chosen, Weighted QMIX struggles to deal with non-monotonic value
decomposition problems with a large variance of reward distributions. Then we
characterize the problem of value decomposition as an Underfitting One-edged
Robust Regression problem and make the first attempt to give a solution to the
value decomposition problem from the perspective of information-theoretical
learning. We introduce the Maximum Correntropy Criterion (MCC) as a cost
function to dynamically adapt the weight to eliminate the effects of minimum in
reward distributions. We simplify the implementation and propose a new
algorithm called MCVD. A preliminary experiment conducted on OMG shows that
MCVD could deal with non-monotonic value decomposition problems with a large
tolerance of kernel bandwidth selection. Further experiments are carried out on
Cooperative-Navigation and multiple SMAC scenarios, where MCVD exhibits
unprecedented ease of implementation, broad applicability, and stability.
- Abstract(参考訳): 我々は,分散実行(CTDE)を用いた集中学習の一般的なパラダイムにおいて,マルチエージェントの深層強化学習のための価値分解ソリューションを検討する。
CTDEの最適解として、Weighted QMIXはStarCraft Multi-agent Challenge (SMAC)で最先端であり、QMIX上に実装された重み付け方式により、最適な関節動作に重点を置いている。
しかし、固定重み付けはアプリケーションのシナリオに応じて手動のチューニングを必要とするため、より広範なエンジニアリングアプリケーションでWeighted QMIXが使用されるのを困難に防ぐことができる。
本稿では,重み付きqmixの欠点を,一般のワンステップマトリクスゲーム(omg)を用いて実演し,重み付きqmixが選択された場合でも,報酬分布のばらつきが大きい非単調値分解問題に対処できないことを示す。
次に,1次元ロバスト回帰問題として価値分解の問題を挙げ,情報理論的学習の観点から価値分解問題への解を与える最初の試みを行う。
最大コレントロピー基準 (mcc) をコスト関数として導入し, 報酬分布における最小効果を排除するために, 重量を動的に適応させる。
実装を簡略化し,MCVDと呼ばれる新しいアルゴリズムを提案する。
OMGで行った予備実験では、MCVDはカーネル帯域幅選択の許容度が大きい非単調値分解問題に対処できることを示した。
協調ナビゲーションと複数のSMACシナリオでさらなる実験が行われ、MCVDは前例のない実装の容易さ、幅広い適用性、安定性を示す。
関連論文リスト
- MG-Net: Learn to Customize QAOA with Circuit Depth Awareness [51.78425545377329]
量子近似最適化アルゴリズム(QAOA)とその変種は、最適化問題に対処する大きな可能性を示している。
良好な性能を実現するために必要な回路深度は問題固有であり、しばしば現在の量子デバイスの最大容量を超える。
ミキサジェネレータネットワーク (MG-Net) は, 最適ミキサハミルトニアンを動的に定式化するための統合ディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2024-09-27T12:28:18Z) - POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
本稿では, 潜在的に最適な関節動作を認識し, トレーニング中の損失により高い重みを割り当てるPOWQmix(Possally Optimal Joint Actions Weighted Qmix)アルゴリズムを提案する。
行列ゲーム,難易度の高い捕食者前処理,およびStarCraft II Multi-Agent Challenge環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Interfacing Finite Elements with Deep Neural Operators for Fast
Multiscale Modeling of Mechanics Problems [4.280301926296439]
本研究では,機械学習を用いたマルチスケールモデリングのアイデアを探求し,高コストソルバの効率的なサロゲートとしてニューラル演算子DeepONetを用いる。
DeepONetは、きめ細かい解法から取得したデータを使って、基礎とおそらく未知のスケールのダイナミクスを学習してオフラインでトレーニングされている。
精度とスピードアップを評価するための様々なベンチマークを提示し、特に時間依存問題に対する結合アルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-25T20:46:08Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - QR-MIX: Distributional Value Function Factorisation for Cooperative
Multi-Agent Reinforcement Learning [5.564793925574797]
MARL(Multi-Agent Reinforcement Learning)では、エージェントは環境を局所的に独立して観察し、相互作用する。
局所的な観測とランダムサンプリングにより、報酬や観察のランダム性は、長期的なリターンのランダム性をもたらす。
価値分解ネットワーク(VDN)やQMIXといった既存の手法は、乱数性の情報を含まないスカラーとして長期的なリターンの値を推定する。
論文 参考訳(メタデータ) (2020-09-09T10:28:44Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。