論文の概要: Revisiting the Gumbel-Softmax in MADDPG
- arxiv url: http://arxiv.org/abs/2302.11793v2
- Date: Wed, 14 Jun 2023 13:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 02:06:55.260478
- Title: Revisiting the Gumbel-Softmax in MADDPG
- Title(参考訳): MADDPGにおけるGumbel-Softmaxの再検討
- Authors: Callum Rhys Tilbury, Filippos Christianos, Stefano V. Albrecht
- Abstract要約: DDPGは、状態-作用値関数の勾配が存在する連続的な作用空間のために設計されたアルゴリズムである。
このアルゴリズムが離散的な作用空間で機能するためには、離散的な勾配推定を行う必要がある。
本稿では,複数の代替手段を探索し,離散グリッドワールドシナリオのためのMADDPGに統合する。
- 参考スコア(独自算出の注目度): 11.292086312664383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MADDPG is an algorithm in multi-agent reinforcement learning (MARL) that
extends the popular single-agent method, DDPG, to multi-agent scenarios.
Importantly, DDPG is an algorithm designed for continuous action spaces, where
the gradient of the state-action value function exists. For this algorithm to
work in discrete action spaces, discrete gradient estimation must be performed.
For MADDPG, the Gumbel-Softmax (GS) estimator is used -- a reparameterisation
which relaxes a discrete distribution into a similar continuous one. This
method, however, is statistically biased, and a recent MARL benchmarking paper
suggests that this bias makes MADDPG perform poorly in grid-world situations,
where the action space is discrete. Fortunately, many alternatives to the GS
exist, boasting a wide range of properties. This paper explores several of
these alternatives and integrates them into MADDPG for discrete grid-world
scenarios. The corresponding impact on various performance metrics is then
measured and analysed. It is found that one of the proposed estimators performs
significantly better than the original GS in several tasks, achieving up to 55%
higher returns, along with faster convergence.
- Abstract(参考訳): MADDPGはマルチエージェント強化学習(MARL)におけるアルゴリズムであり、一般的な単エージェント法であるDDPGをマルチエージェントシナリオに拡張する。
DDPGは、状態-作用値関数の勾配が存在する連続的な行動空間向けに設計されたアルゴリズムである。
このアルゴリズムが離散作用空間で動作するためには、離散勾配推定を行う必要がある。
maddpgでは、gumbel-softmax (gs) 推定器が使用されている -- 離散分布を同様の連続分布に緩和する再パラメータ化である。
しかし、この手法は統計的に偏りがあり、最近のMARLベンチマークでは、このバイアスにより、アクション空間が離散的なグリッドワールド環境でのMADDPGの性能が低下することが示唆されている。
幸いにもGSの代替品は数多く存在し、幅広い特性を誇っている。
本稿では,これらの選択肢のいくつかを探索し,離散グリッドワールドシナリオのためのMADDPGに統合する。
さまざまなパフォーマンス指標に対する対応する影響を計測して分析する。
提案した推定器の1つは、いくつかのタスクにおいて元のGSよりもはるかに優れた性能を示し、最大で55%高いリターンを達成し、より高速な収束を実現している。
関連論文リスト
- ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control [13.324744655744624]
我々は、疎度な報酬を伴う強化学習の文脈において、Deep Deterministic Policy gradient (DDPG) を考慮する。
探索手順としてemph$epsilont$-greedyを導入する。
報酬のある遷移によって提供される情報をより効率的に利用するために、我々は新しいデュアルエクスペリエンスバッファーフレームワークを開発する。
結果として得られるアルゴリズムであるemphETGL-DDPGは、3つのテクニックをすべて統合する。
論文 参考訳(メタデータ) (2024-10-07T17:31:52Z) - Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs [9.58750210024265]
バンディットとマルコフ決定過程(MDP)に対する(確率的)ソフトマックスポリシー勾配(PG)法について検討する。
提案アルゴリズムは,技術結果と類似した理論的保証を提供するが,オラクルのような量の知識は必要としないことを示す。
マルチアームバンディット設定の場合,提案手法は明示的な探索や報奨ギャップの知識,報奨分布,ノイズを必要としない理論的なPGアルゴリズムを実現する。
論文 参考訳(メタデータ) (2024-05-21T18:12:39Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - Nonconvex Stochastic Bregman Proximal Gradient Method for Nonconvex Composite Problems [9.202586157819693]
非合成対象関数の勾配法は、典型的には微分可能部分のリプシッツ滑らかさに依存する。
非目的の非Lipschitz勾配を扱う近似モデルを提案する。
ステップ選択感度の観点から最適なロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Non Asymptotic Bounds for Optimization via Online Multiplicative
Stochastic Gradient Descent [0.0]
グラディエントDescent(SGD)の勾配雑音は,その特性において重要な役割を担っていると考えられている。
ミニバッチによるSGDの平均と共分散構造を持つ雑音クラスは、同様の特性を持つことを示す。
また,M-SGDアルゴリズムの強い凸状態における収束の限界を定めている。
論文 参考訳(メタデータ) (2021-12-14T02:25:43Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。