論文の概要: Addressing Rotational Learning Dynamics in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.07976v2
- Date: Thu, 20 Feb 2025 17:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:25:58.101718
- Title: Addressing Rotational Learning Dynamics in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における回転学習ダイナミクスの対応
- Authors: Baraah A. M. Sidahmed, Tatjana Chavdarova,
- Abstract要約: 多エージェント強化学習(MARL)はエージェントの協力と競争を通じて複雑な問題を解決するための強力なパラダイムとして登場した。
この問題の一部は、競合するエージェントの目的から生じる回転最適化のダイナミクスに関連していることを示す。
既存のMARLアルゴリズムに回転力学を扱える勾配型VI法を統合するための一般的な手法を提案する。
- 参考スコア(独自算出の注目度): 4.204990010424083
- License:
- Abstract: Multi-agent reinforcement learning (MARL) has emerged as a powerful paradigm for solving complex problems through agents' cooperation and competition, finding widespread applications across domains. Despite its success, MARL faces a reproducibility crisis. We show that, in part, this issue is related to the rotational optimization dynamics arising from competing agents' objectives, and require methods beyond standard optimization algorithms. We reframe MARL approaches using Variational Inequalities (VIs), offering a unified framework to address such issues. Leveraging optimization techniques designed for VIs, we propose a general approach for integrating gradient-based VI methods capable of handling rotational dynamics into existing MARL algorithms. Empirical results demonstrate significant performance improvements across benchmarks. In zero-sum games, Rock--paper--scissors and Matching pennies, VI methods achieve better convergence to equilibrium strategies, and in the Multi-Agent Particle Environment: Predator-prey, they also enhance team coordination. These results underscore the transformative potential of advanced optimization techniques in MARL.
- Abstract(参考訳): 多エージェント強化学習(MARL)は、エージェントの協力と競争を通じて複雑な問題を解決するための強力なパラダイムとして登場し、ドメインにまたがる幅広い応用を見つけてきた。
その成功にもかかわらず、MARLは再現性危機に直面している。
この問題の一部は、競合するエージェントの目的から生じる回転最適化のダイナミクスに関連しており、標準的な最適化アルゴリズムを超える方法が必要であることを示す。
私たちは、変分不等式(VIs)を使ってMARLアプローチを再設計し、そのような問題に対処するための統一されたフレームワークを提供します。
そこで本稿では,VIs 向けに設計した最適化手法を活用し,既存の MARL アルゴリズムに回転力学を扱える勾配型 VI 手法の一般化手法を提案する。
実証的な結果から、ベンチマーク間での大幅なパフォーマンス向上が示されている。
ゼロサムゲーム、Rock-paper-scisors、Matching penniesでは、VIメソッドは均衡戦略へのより良い収束を実現し、Multi-Agent Particle Environment: Predator-preyではチームの調整も強化する。
これらの結果は、MARLにおける高度な最適化手法の変換ポテンシャルを裏付けるものである。
関連論文リスト
- Large Language Model Aided Multi-objective Evolutionary Algorithm: a Low-cost Adaptive Approach [4.442101733807905]
本研究では,大規模言語モデル(LLM)と従来の進化的アルゴリズムを組み合わせることで,アルゴリズムの探索能力と一般化性能を向上させる新しいフレームワークを提案する。
適応機構内の補助的評価関数と自動的プロンプト構築を活用し, LLM の利用を柔軟に調整する。
論文 参考訳(メタデータ) (2024-10-03T08:37:02Z) - Modified CMA-ES Algorithm for Multi-Modal Optimization: Incorporating Niching Strategies and Dynamic Adaptation Mechanism [0.03495246564946555]
本研究では,多モード最適化問題に対する共分散行列適応進化戦略 (CMA-ES) アルゴリズムを改良する。
この拡張は、複数のグローバルミニマの課題への対処、多様性の維持と複雑なフィットネスランドスケープを探索するアルゴリズムの能力の改善に焦点を当てている。
ニッチ戦略と動的適応機構を取り入れて,複数のグローバル最適化を識別・最適化するアルゴリズムの性能を向上する。
論文 参考訳(メタデータ) (2024-07-01T03:41:39Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。
私たちの目標は、進化の集団の収束を早めることです。
論文 参考訳(メタデータ) (2024-05-09T13:44:04Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Enhanced Innovized Repair Operator for Evolutionary Multi- and
Many-objective Optimization [5.885238773559015]
革新」とは、最適化問題においてパレート最適化(PO)ソリューションの一部または全部の共通関係を学習するタスクである。
近年の研究では、非支配的なソリューションの時系列配列もまた、問題の特徴を学習するのに使える有能なパターンを持っていることが示されている。
本稿では,Pareto-Optimal 集合に向けて,集団構成員を前進させるために必要な設計変数の修正を学習する機械学習(ML-)支援モデル手法を提案する。
論文 参考訳(メタデータ) (2020-11-21T10:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。