論文の概要: Variational Inequality Methods for Multi-Agent Reinforcement Learning: Performance and Stability Gains
- arxiv url: http://arxiv.org/abs/2410.07976v1
- Date: Thu, 10 Oct 2024 14:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 06:15:07.794284
- Title: Variational Inequality Methods for Multi-Agent Reinforcement Learning: Performance and Stability Gains
- Title(参考訳): 多エージェント強化学習のための変分不等式法:性能と安定性向上
- Authors: Baraah A. M. Sidahmed, Tatjana Chavdarova,
- Abstract要約: 本稿では,変分不等式(VI)に基づく多エージェント強化学習(MARL)の改善の可能性について検討する。
シングルエージェントとマルチエージェントの両方の設定に対してアクター・クリティカル・アルゴリズムの VI 改訂を提案する。
我々は, nLA-VI, EG, および LA-MADDPG, EG-MADDPG, LA-EG-MADDPG という2つの組み合わせを用いた3つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.204990010424083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) presents unique challenges as agents learn strategies through experiences. Gradient-based methods are often sensitive to hyperparameter selection and initial random seed variations. Concurrently, significant advances have been made in solving Variational Inequalities (VIs) which include equilibrium-finding problems particularly in addressing the non-converging rotational dynamics that impede convergence of traditional gradient based optimization methods. This paper explores the potential of leveraging VI-based techniques to improve MARL training. Specifically, we study the performance of VI method namely, Nested-Lookahead VI (nLA-VI) and Extragradient (EG) in enhancing the multi-agent deep deterministic policy gradient (MADDPG) algorithm. We present a VI reformulation of the actor-critic algorithm for both single- and multi-agent settings. We introduce three algorithms that use nLA-VI, EG, and a combination of both, named LA-MADDPG, EG-MADDPG, and LA-EG-MADDPG, respectively. Our empirical results demonstrate that these VI-based approaches yield significant performance improvements in benchmark environments, such as the zero-sum games: rock-paper-scissors and matching pennies, where equilibrium strategies can be quantitatively assessed, and the Multi-Agent Particle Environment: Predator prey benchmark, where VI-based methods also yield balanced participation of agents from the same team.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、エージェントが経験を通して戦略を学ぶとき、ユニークな課題を提示する。
勾配に基づく手法は、しばしばハイパーパラメータの選択と初期ランダムシードの変動に敏感である。
同時に、従来の勾配に基づく最適化手法の収束を阻害する非収束回転力学に特に対処する平衡フィニング問題を含む変分不等式 (VIs) の解決にも大きな進歩があった。
本稿では,MARL トレーニングを改善するために VI ベースの手法を活用する可能性について検討する。
具体的には,Nested-Lookahead VI (nLA-VI) およびExtragradient (EG) を用いたマルチエージェント深層決定性ポリシー勾配 (MADDPG) アルゴリズムの性能について検討した。
シングルエージェントとマルチエージェントの両方の設定に対してアクター・クリティカル・アルゴリズムの VI 改訂を提案する。
我々は, nLA-VI, EG, および LA-MADDPG, EG-MADDPG, LA-EG-MADDPG という2つの組み合わせを用いた3つのアルゴリズムを提案する。
実験の結果、これらのVIベースのアプローチは、ゼロサムゲームのようなベンチマーク環境において、平衡戦略を定量的に評価できるロックペーパー・シザーやマッチングペニーや、VIベースの手法が同一チームからのエージェントのバランスの取れた参加を得られるマルチエージェント・パーティクル環境:プレデター・プレイ・ベンチマークなど、大きなパフォーマンス向上をもたらすことが示された。
関連論文リスト
- DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Large Language Model Aided Multi-objective Evolutionary Algorithm: a Low-cost Adaptive Approach [4.442101733807905]
本研究では,大規模言語モデル(LLM)と従来の進化的アルゴリズムを組み合わせることで,アルゴリズムの探索能力と一般化性能を向上させる新しいフレームワークを提案する。
適応機構内の補助的評価関数と自動的プロンプト構築を活用し, LLM の利用を柔軟に調整する。
論文 参考訳(メタデータ) (2024-10-03T08:37:02Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Modified CMA-ES Algorithm for Multi-Modal Optimization: Incorporating Niching Strategies and Dynamic Adaptation Mechanism [0.03495246564946555]
本研究では,多モード最適化問題に対する共分散行列適応進化戦略 (CMA-ES) アルゴリズムを改良する。
この拡張は、複数のグローバルミニマの課題への対処、多様性の維持と複雑なフィットネスランドスケープを探索するアルゴリズムの能力の改善に焦点を当てている。
ニッチ戦略と動的適応機構を取り入れて,複数のグローバル最適化を識別・最適化するアルゴリズムの性能を向上する。
論文 参考訳(メタデータ) (2024-07-01T03:41:39Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。
私たちの目標は、進化の集団の収束を早めることです。
論文 参考訳(メタデータ) (2024-05-09T13:44:04Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - Bridging Diversity and Uncertainty in Active learning with
Self-Supervised Pre-Training [23.573986817769025]
本研究は,能動学習における多様性に基づく,不確実性に基づくサンプリング戦略の統合について論じる。
我々は,コールドスタート問題を軽減し,さまざまなデータレベルの強いパフォーマンスを維持しつつ,TCMという単純な手法を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:18:24Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Enhanced Innovized Repair Operator for Evolutionary Multi- and
Many-objective Optimization [5.885238773559015]
革新」とは、最適化問題においてパレート最適化(PO)ソリューションの一部または全部の共通関係を学習するタスクである。
近年の研究では、非支配的なソリューションの時系列配列もまた、問題の特徴を学習するのに使える有能なパターンを持っていることが示されている。
本稿では,Pareto-Optimal 集合に向けて,集団構成員を前進させるために必要な設計変数の修正を学習する機械学習(ML-)支援モデル手法を提案する。
論文 参考訳(メタデータ) (2020-11-21T10:29:15Z) - Meta-Learning Divergences of Variational Inference [49.164944557174294]
変分推論(VI)は、近似ベイズ推論において重要な役割を果たす。
本稿では,興味ある課題に適した分散度を学習するためのメタ学習アルゴリズムを提案する。
提案手法はガウス混合分布近似の標準VIより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-06T17:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。