論文の概要: Variational Inequality Methods for Multi-Agent Reinforcement Learning: Performance and Stability Gains
- arxiv url: http://arxiv.org/abs/2410.07976v1
- Date: Thu, 10 Oct 2024 14:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 06:15:07.794284
- Title: Variational Inequality Methods for Multi-Agent Reinforcement Learning: Performance and Stability Gains
- Title(参考訳): 多エージェント強化学習のための変分不等式法:性能と安定性向上
- Authors: Baraah A. M. Sidahmed, Tatjana Chavdarova,
- Abstract要約: 本稿では,変分不等式(VI)に基づく多エージェント強化学習(MARL)の改善の可能性について検討する。
シングルエージェントとマルチエージェントの両方の設定に対してアクター・クリティカル・アルゴリズムの VI 改訂を提案する。
我々は, nLA-VI, EG, および LA-MADDPG, EG-MADDPG, LA-EG-MADDPG という2つの組み合わせを用いた3つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.204990010424083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) presents unique challenges as agents learn strategies through experiences. Gradient-based methods are often sensitive to hyperparameter selection and initial random seed variations. Concurrently, significant advances have been made in solving Variational Inequalities (VIs) which include equilibrium-finding problems particularly in addressing the non-converging rotational dynamics that impede convergence of traditional gradient based optimization methods. This paper explores the potential of leveraging VI-based techniques to improve MARL training. Specifically, we study the performance of VI method namely, Nested-Lookahead VI (nLA-VI) and Extragradient (EG) in enhancing the multi-agent deep deterministic policy gradient (MADDPG) algorithm. We present a VI reformulation of the actor-critic algorithm for both single- and multi-agent settings. We introduce three algorithms that use nLA-VI, EG, and a combination of both, named LA-MADDPG, EG-MADDPG, and LA-EG-MADDPG, respectively. Our empirical results demonstrate that these VI-based approaches yield significant performance improvements in benchmark environments, such as the zero-sum games: rock-paper-scissors and matching pennies, where equilibrium strategies can be quantitatively assessed, and the Multi-Agent Particle Environment: Predator prey benchmark, where VI-based methods also yield balanced participation of agents from the same team.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、エージェントが経験を通して戦略を学ぶとき、ユニークな課題を提示する。
勾配に基づく手法は、しばしばハイパーパラメータの選択と初期ランダムシードの変動に敏感である。
同時に、従来の勾配に基づく最適化手法の収束を阻害する非収束回転力学に特に対処する平衡フィニング問題を含む変分不等式 (VIs) の解決にも大きな進歩があった。
本稿では,MARL トレーニングを改善するために VI ベースの手法を活用する可能性について検討する。
具体的には,Nested-Lookahead VI (nLA-VI) およびExtragradient (EG) を用いたマルチエージェント深層決定性ポリシー勾配 (MADDPG) アルゴリズムの性能について検討した。
シングルエージェントとマルチエージェントの両方の設定に対してアクター・クリティカル・アルゴリズムの VI 改訂を提案する。
我々は, nLA-VI, EG, および LA-MADDPG, EG-MADDPG, LA-EG-MADDPG という2つの組み合わせを用いた3つのアルゴリズムを提案する。
実験の結果、これらのVIベースのアプローチは、ゼロサムゲームのようなベンチマーク環境において、平衡戦略を定量的に評価できるロックペーパー・シザーやマッチングペニーや、VIベースの手法が同一チームからのエージェントのバランスの取れた参加を得られるマルチエージェント・パーティクル環境:プレデター・プレイ・ベンチマークなど、大きなパフォーマンス向上をもたらすことが示された。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Bridging Diversity and Uncertainty in Active learning with
Self-Supervised Pre-Training [23.573986817769025]
本研究は,能動学習における多様性に基づく,不確実性に基づくサンプリング戦略の統合について論じる。
我々は,コールドスタート問題を軽減し,さまざまなデータレベルの強いパフォーマンスを維持しつつ,TCMという単純な手法を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:18:24Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Meta-Learning Divergences of Variational Inference [49.164944557174294]
変分推論(VI)は、近似ベイズ推論において重要な役割を果たす。
本稿では,興味ある課題に適した分散度を学習するためのメタ学習アルゴリズムを提案する。
提案手法はガウス混合分布近似の標準VIより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-06T17:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。