論文の概要: MARL with General Utilities via Decentralized Shadow Reward Actor-Critic
- arxiv url: http://arxiv.org/abs/2106.00543v1
- Date: Sat, 29 May 2021 19:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:43:43.469413
- Title: MARL with General Utilities via Decentralized Shadow Reward Actor-Critic
- Title(参考訳): 分散シャドウ・リワード・アクター・クリティカルによる一般用途MARL
- Authors: Junyu Zhang, Amrit Singh Bedi, Mengdi Wang, and Alec Koppel
- Abstract要約: bf分散bfシャドーリワードbfアクターbf批判(DSAC)
エージェントは、政策評価(批判的)、近隣住民との重み付け(情報混合)、政策パラメータ(アクター)の局所的勾配更新を交互に行う。
実験は、協調的なMARLにおける累積リターン以上の目標のメリットを実証する。
- 参考スコア(独自算出の注目度): 43.249231735737865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We posit a new mechanism for cooperation in multi-agent reinforcement
learning (MARL) based upon any nonlinear function of the team's long-term
state-action occupancy measure, i.e., a \emph{general utility}. This subsumes
the cumulative return but also allows one to incorporate risk-sensitivity,
exploration, and priors. % We derive the {\bf D}ecentralized {\bf S}hadow
Reward {\bf A}ctor-{\bf C}ritic (DSAC) in which agents alternate between policy
evaluation (critic), weighted averaging with neighbors (information mixing),
and local gradient updates for their policy parameters (actor). DSAC augments
the classic critic step by requiring agents to (i) estimate their local
occupancy measure in order to (ii) estimate the derivative of the local utility
with respect to their occupancy measure, i.e., the "shadow reward". DSAC
converges to $\epsilon$-stationarity in $\mathcal{O}(1/\epsilon^{2.5})$
(Theorem \ref{theorem:final}) or faster $\mathcal{O}(1/\epsilon^{2})$
(Corollary \ref{corollary:communication}) steps with high probability,
depending on the amount of communications. We further establish the
non-existence of spurious stationary points for this problem, that is, DSAC
finds the globally optimal policy (Corollary \ref{corollary:global}).
Experiments demonstrate the merits of goals beyond the cumulative return in
cooperative MARL.
- Abstract(参考訳): 我々は,チームの長期的状態行動占有度尺度の非線形機能,すなわち \emph{ General utility} に基づくマルチエージェント強化学習(MARL)における協調のための新しいメカニズムを提案する。
これは累積リターンを仮定するが、リスク感受性、探索、事前を組み込むこともできる。
%) は, 政策評価 (クリティック), 重み付け平均化 (情報混合), 政策パラメータの局所的勾配更新 (actor) と, 政策評価 (critic), 政策評価 (critic) を交互に交互に実施する dac (ecentralized {\bf s}hadow reward {\bf a}ctor-{\bf c}ritic (dsac) を導出した。
DSACは、(i)エージェントに対し、(ii)ローカルユーティリティーのデリバティブ、すなわち「シャドウ報酬」を見積もるために、(ii)ローカルユーティリティーのデリバティブを見積もることを要求することで、古典的な批評家のステップを強化する。
dsacは$\mathcal{o}(1/\epsilon^{2.5})$ (theorem \ref{theorem:final}) またはより高速な$\mathcal{o}(1/\epsilon^{2})$ (corollary \ref{corollary:communication}) で$\epsilon$-stationarityに収束する。
我々はさらに、この問題に対する散発的な静止点の非存在性、すなわちdsacがグローバルに最適なポリシーを見つける(corollary \ref{corollary:global})。
実験は、協調的なMARLにおける累積リターン以上の目標のメリットを実証する。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Policy Mirror Descent Inherently Explores Action Space [10.772560347950053]
1/epsilon2)$tildemathcalO($tildemathcalO)を,探索戦略を使わずに,オンラインポリシグラデーションメソッドのサンプル複雑性を初めて確立しました。
新しいポリシー勾配法は、最適なポリシーを探す際に、潜在的にリスクの高い行動に繰り返しコミットするのを防ぐことができる。
論文 参考訳(メタデータ) (2023-03-08T05:19:08Z) - Scalable Multi-Agent Reinforcement Learning with General Utilities [30.960413388976438]
汎用性を備えた拡張型マルチエージェント強化学習(MARL)について検討する。
目的は、チーム内の各エージェントの完全な可観測性なしに、チームのローカルユーティリティ関数の平均を最大化する、ローカライズされたポリシーを見つけることである。
これは、完全な可観測性を必要としない汎用性を持つマルチエージェントRLに関する文献の最初の結果である。
論文 参考訳(メタデータ) (2023-02-15T20:47:43Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。