論文の概要: Variational Inequality Methods for Multi-Agent Reinforcement Learning: Performance and Stability Gains
- arxiv url: http://arxiv.org/abs/2410.07976v1
- Date: Thu, 10 Oct 2024 14:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 06:15:07.794284
- Title: Variational Inequality Methods for Multi-Agent Reinforcement Learning: Performance and Stability Gains
- Title(参考訳): 多エージェント強化学習のための変分不等式法:性能と安定性向上
- Authors: Baraah A. M. Sidahmed, Tatjana Chavdarova,
- Abstract要約: 本稿では,変分不等式(VI)に基づく多エージェント強化学習(MARL)の改善の可能性について検討する。
シングルエージェントとマルチエージェントの両方の設定に対してアクター・クリティカル・アルゴリズムの VI 改訂を提案する。
我々は, nLA-VI, EG, および LA-MADDPG, EG-MADDPG, LA-EG-MADDPG という2つの組み合わせを用いた3つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.204990010424083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) presents unique challenges as agents learn strategies through experiences. Gradient-based methods are often sensitive to hyperparameter selection and initial random seed variations. Concurrently, significant advances have been made in solving Variational Inequalities (VIs) which include equilibrium-finding problems particularly in addressing the non-converging rotational dynamics that impede convergence of traditional gradient based optimization methods. This paper explores the potential of leveraging VI-based techniques to improve MARL training. Specifically, we study the performance of VI method namely, Nested-Lookahead VI (nLA-VI) and Extragradient (EG) in enhancing the multi-agent deep deterministic policy gradient (MADDPG) algorithm. We present a VI reformulation of the actor-critic algorithm for both single- and multi-agent settings. We introduce three algorithms that use nLA-VI, EG, and a combination of both, named LA-MADDPG, EG-MADDPG, and LA-EG-MADDPG, respectively. Our empirical results demonstrate that these VI-based approaches yield significant performance improvements in benchmark environments, such as the zero-sum games: rock-paper-scissors and matching pennies, where equilibrium strategies can be quantitatively assessed, and the Multi-Agent Particle Environment: Predator prey benchmark, where VI-based methods also yield balanced participation of agents from the same team.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、エージェントが経験を通して戦略を学ぶとき、ユニークな課題を提示する。
勾配に基づく手法は、しばしばハイパーパラメータの選択と初期ランダムシードの変動に敏感である。
同時に、従来の勾配に基づく最適化手法の収束を阻害する非収束回転力学に特に対処する平衡フィニング問題を含む変分不等式 (VIs) の解決にも大きな進歩があった。
本稿では,MARL トレーニングを改善するために VI ベースの手法を活用する可能性について検討する。
具体的には,Nested-Lookahead VI (nLA-VI) およびExtragradient (EG) を用いたマルチエージェント深層決定性ポリシー勾配 (MADDPG) アルゴリズムの性能について検討した。
シングルエージェントとマルチエージェントの両方の設定に対してアクター・クリティカル・アルゴリズムの VI 改訂を提案する。
我々は, nLA-VI, EG, および LA-MADDPG, EG-MADDPG, LA-EG-MADDPG という2つの組み合わせを用いた3つのアルゴリズムを提案する。
実験の結果、これらのVIベースのアプローチは、ゼロサムゲームのようなベンチマーク環境において、平衡戦略を定量的に評価できるロックペーパー・シザーやマッチングペニーや、VIベースの手法が同一チームからのエージェントのバランスの取れた参加を得られるマルチエージェント・パーティクル環境:プレデター・プレイ・ベンチマークなど、大きなパフォーマンス向上をもたらすことが示された。
関連論文リスト
- Large Language Model Aided Multi-objective Evolutionary Algorithm: a Low-cost Adaptive Approach [4.442101733807905]
本研究では,大規模言語モデル(LLM)と従来の進化的アルゴリズムを組み合わせることで,アルゴリズムの探索能力と一般化性能を向上させる新しいフレームワークを提案する。
適応機構内の補助的評価関数と自動的プロンプト構築を活用し, LLM の利用を柔軟に調整する。
論文 参考訳(メタデータ) (2024-10-03T08:37:02Z) - Modified CMA-ES Algorithm for Multi-Modal Optimization: Incorporating Niching Strategies and Dynamic Adaptation Mechanism [0.03495246564946555]
本研究では,多モード最適化問題に対する共分散行列適応進化戦略 (CMA-ES) アルゴリズムを改良する。
この拡張は、複数のグローバルミニマの課題への対処、多様性の維持と複雑なフィットネスランドスケープを探索するアルゴリズムの能力の改善に焦点を当てている。
ニッチ戦略と動的適応機構を取り入れて,複数のグローバル最適化を識別・最適化するアルゴリズムの性能を向上する。
論文 参考訳(メタデータ) (2024-07-01T03:41:39Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。
私たちの目標は、進化の集団の収束を早めることです。
論文 参考訳(メタデータ) (2024-05-09T13:44:04Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Enhanced Innovized Repair Operator for Evolutionary Multi- and
Many-objective Optimization [5.885238773559015]
革新」とは、最適化問題においてパレート最適化(PO)ソリューションの一部または全部の共通関係を学習するタスクである。
近年の研究では、非支配的なソリューションの時系列配列もまた、問題の特徴を学習するのに使える有能なパターンを持っていることが示されている。
本稿では,Pareto-Optimal 集合に向けて,集団構成員を前進させるために必要な設計変数の修正を学習する機械学習(ML-)支援モデル手法を提案する。
論文 参考訳(メタデータ) (2020-11-21T10:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。