論文の概要: DM$^2$: Distributed Multi-Agent Reinforcement Learning for Distribution
Matching
- arxiv url: http://arxiv.org/abs/2206.00233v1
- Date: Wed, 1 Jun 2022 04:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:56:51.147665
- Title: DM$^2$: Distributed Multi-Agent Reinforcement Learning for Distribution
Matching
- Title(参考訳): DM$^2$:分散マルチエージェント強化学習による分散マッチング
- Authors: Caroline Wang, Ishan Durugkar, Elad Liebman, Peter Stone
- Abstract要約: 本稿では,明示的なコーディネーション方式を使わずに,分散マルチエージェント学習の課題を考察する。
各エージェントは、共同専門家ポリシーから同時にサンプリングされた軌道の目標分布と一致する。
StarCraftドメインでの実験的検証は、分散の報酬と環境の報酬を組み合わせることで、エージェントが完全に分散されたベースラインより優れたパフォーマンスを発揮することを示している。
- 参考スコア(独自算出の注目度): 43.58408474941208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches to multi-agent cooperation rely heavily on centralized
mechanisms or explicit communication protocols to ensure convergence. This
paper studies the problem of distributed multi-agent learning without resorting
to explicit coordination schemes. The proposed algorithm (DM$^2$) leverages
distribution matching to facilitate independent agents' coordination. Each
individual agent matches a target distribution of concurrently sampled
trajectories from a joint expert policy. The theoretical analysis shows that
under some conditions, if each agent optimizes their individual distribution
matching objective, the agents increase a lower bound on the objective of
matching the joint expert policy, allowing convergence to the joint expert
policy. Further, if the distribution matching objective is aligned with a joint
task, a combination of environment reward and distribution matching reward
leads to the same equilibrium. Experimental validation on the StarCraft domain
shows that combining the reward for distribution matching with the environment
reward allows agents to outperform a fully distributed baseline. Additional
experiments probe the conditions under which expert demonstrations need to be
sampled in order to outperform the fully distributed baseline.
- Abstract(参考訳): マルチエージェント協調に対する現在のアプローチは、収束を確保するために集中型メカニズムや明示的な通信プロトコルに大きく依存している。
本稿では,明示的なコーディネーション方式を使わずに分散マルチエージェント学習の課題を考察する。
提案されたアルゴリズム (dm$^2$) は分散マッチングを利用して独立エージェントの協調を促進する。
各エージェントは、共同専門家ポリシーから同時にサンプリングされた軌道のターゲット分布と一致する。
理論的分析により,各エージェントがそれぞれの分布マッチング目標を最適化した場合,各エージェントは共同専門家ポリシーに適合する目的の下位境界を増大させ,共同専門家ポリシーへの収束を可能にすることが示された。
さらに、分布整合目標が共同作業と一致している場合、環境報酬と分布整合報酬の組み合わせは同じ平衡となる。
starcraftドメインの実験的な検証は、分散マッチングに対する報酬と環境報酬の組み合わせによって、エージェントが完全に分散されたベースラインを上回ることができることを示している。
さらなる実験は、完全に分散されたベースラインを上回るために、専門家のデモンストレーションをサンプリングする必要がある条件を調査する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria [0.0]
本稿では,ゲーム理論のシナリオ,すなわちIterated Prisoner's Dilemmaにおける協調を呼び起こす戦略について検討する。
既存の協調戦略は、繰り返しゲームにおけるグループ指向行動を促進する効果について分析する。
この研究は、指数関数的に増加するエージェント集団のシナリオにまで及んでいる。
論文 参考訳(メタデータ) (2023-09-28T08:57:01Z) - Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent
Reinforcement Learning [9.290757451344673]
分布のサンプリング領域をシフトさせることにより協調的に楽観的な行動をもたらすリスクベースの探索を提案する。
本手法は, 量子レグレッションに基づく協調探索を必要とするマルチエージェント環境において, 顕著な性能を示す。
論文 参考訳(メタデータ) (2023-03-03T08:17:57Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z) - Global Distance-distributions Separation for Unsupervised Person
Re-identification [93.39253443415392]
既存の教師なしのReIDアプローチは、距離ベースのマッチング/ランク付けを通じて正のサンプルと負のサンプルを正しく識別するのに失敗することが多い。
本研究では,2つの分布に対する大域的距離分布分離の制約を導入し,大域的視点から正と負のサンプルを明確に分離することを奨励する。
本研究では,本手法がベースラインを大幅に改善し,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2020-06-01T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。