Fugu-MT 論文翻訳(概要): Addressing Rotational Learning Dynamics in Multi-Agent Reinforcement Learning

論文の概要: Addressing Rotational Learning Dynamics in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.07976v2
Date: Thu, 20 Feb 2025 17:52:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.330067
Title: Addressing Rotational Learning Dynamics in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における回転学習ダイナミクスの対応
Authors: Baraah A. M. Sidahmed, Tatjana Chavdarova,
Abstract要約: 多エージェント強化学習(MARL)はエージェントの協力と競争を通じて複雑な問題を解決するための強力なパラダイムとして登場した。この問題の一部は、競合するエージェントの目的から生じる回転最適化のダイナミクスに関連していることを示す。既存のMARLアルゴリズムに回転力学を扱える勾配型VI法を統合するための一般的な手法を提案する。
参考スコア（独自算出の注目度）: 4.204990010424083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent reinforcement learning (MARL) has emerged as a powerful paradigm for solving complex problems through agents' cooperation and competition, finding widespread applications across domains. Despite its success, MARL faces a reproducibility crisis. We show that, in part, this issue is related to the rotational optimization dynamics arising from competing agents' objectives, and require methods beyond standard optimization algorithms. We reframe MARL approaches using Variational Inequalities (VIs), offering a unified framework to address such issues. Leveraging optimization techniques designed for VIs, we propose a general approach for integrating gradient-based VI methods capable of handling rotational dynamics into existing MARL algorithms. Empirical results demonstrate significant performance improvements across benchmarks. In zero-sum games, Rock--paper--scissors and Matching pennies, VI methods achieve better convergence to equilibrium strategies, and in the Multi-Agent Particle Environment: Predator-prey, they also enhance team coordination. These results underscore the transformative potential of advanced optimization techniques in MARL.
Abstract（参考訳）: 多エージェント強化学習(MARL)は、エージェントの協力と競争を通じて複雑な問題を解決するための強力なパラダイムとして登場し、ドメインにまたがる幅広い応用を見つけてきた。その成功にもかかわらず、MARLは再現性危機に直面している。この問題の一部は、競合するエージェントの目的から生じる回転最適化のダイナミクスに関連しており、標準的な最適化アルゴリズムを超える方法が必要であることを示す。私たちは、変分不等式(VIs)を使ってMARLアプローチを再設計し、そのような問題に対処するための統一されたフレームワークを提供します。そこで本稿では,VIs 向けに設計した最適化手法を活用し,既存の MARL アルゴリズムに回転力学を扱える勾配型 VI 手法の一般化手法を提案する。実証的な結果から、ベンチマーク間での大幅なパフォーマンス向上が示されている。ゼロサムゲーム、Rock-paper-scisors、Matching penniesでは、VIメソッドは均衡戦略へのより良い収束を実現し、Multi-Agent Particle Environment: Predator-preyではチームの調整も強化する。これらの結果は、MARLにおける高度な最適化手法の変換ポテンシャルを裏付けるものである。

関連論文リスト

Adaptability in Multi-Agent Reinforcement Learning: A Framework and Unified Review [9.246912481179464]
MARL(Multi-Agent Reinforcement Learning)は、シミュレーションベンチマークと制約付きシナリオ間で複数のエージェントを協調する上で、明らかな効果を示している。この調査は、動的で実世界のマルチエージェントシステムへのデプロイに適したアルゴリズムの開発に寄与する。
論文参考訳（メタデータ） (2025-07-14T10:39:17Z)
Ensemble-MIX: Enhancing Sample Efficiency in Multi-Agent RL Using Ensemble Methods [0.0]
マルチエージェント強化学習(MARL)法は,様々なマルチエージェントタスクにおいて最先端の結果を得た。しかし、MARLアルゴリズムは、単一のエージェントよりもはるかに多くの環境相互作用を必要とする。本稿では,分散された中央集権的批判と分散アンサンブル学習を組み合わせた新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-03T13:13:15Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Large Language Model Aided Multi-objective Evolutionary Algorithm: a Low-cost Adaptive Approach [4.442101733807905]
本研究では,大規模言語モデル(LLM)と従来の進化的アルゴリズムを組み合わせることで,アルゴリズムの探索能力と一般化性能を向上させる新しいフレームワークを提案する。適応機構内の補助的評価関数と自動的プロンプト構築を活用し, LLM の利用を柔軟に調整する。
論文参考訳（メタデータ） (2024-10-03T08:37:02Z)
Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Modified CMA-ES Algorithm for Multi-Modal Optimization: Incorporating Niching Strategies and Dynamic Adaptation Mechanism [0.03495246564946555]
本研究では,多モード最適化問題に対する共分散行列適応進化戦略 (CMA-ES) アルゴリズムを改良する。この拡張は、複数のグローバルミニマの課題への対処、多様性の維持と複雑なフィットネスランドスケープを探索するアルゴリズムの能力の改善に焦点を当てている。ニッチ戦略と動的適応機構を取り入れて,複数のグローバル最適化を識別・最適化するアルゴリズムの性能を向上する。
論文参考訳（メタデータ） (2024-07-01T03:41:39Z)
LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。私たちの目標は、進化の集団の収束を早めることです。
論文参考訳（メタデータ） (2024-05-09T13:44:04Z)
RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文参考訳（メタデータ） (2024-04-12T05:02:49Z)
Bridging Diversity and Uncertainty in Active learning with Self-Supervised Pre-Training [23.573986817769025]
本研究は,能動学習における多様性に基づく,不確実性に基づくサンプリング戦略の統合について論じる。我々は,コールドスタート問題を軽減し,さまざまなデータレベルの強いパフォーマンスを維持しつつ,TCMという単純な手法を導入する。
論文参考訳（メタデータ） (2024-03-06T14:18:24Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。 NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文参考訳（メタデータ） (2023-04-21T17:53:05Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文参考訳（メタデータ） (2021-11-11T14:28:12Z)
Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。 MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文参考訳（メタデータ） (2021-08-19T10:49:10Z)
Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2021-04-27T19:37:01Z)
The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討 FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文参考訳（メタデータ） (2021-03-24T07:21:43Z)
Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文参考訳（メタデータ） (2021-02-07T20:53:23Z)
Enhanced Innovized Repair Operator for Evolutionary Multi- and Many-objective Optimization [5.885238773559015]
革新」とは、最適化問題においてパレート最適化(PO)ソリューションの一部または全部の共通関係を学習するタスクである。近年の研究では、非支配的なソリューションの時系列配列もまた、問題の特徴を学習するのに使える有能なパターンを持っていることが示されている。本稿では,Pareto-Optimal 集合に向けて,集団構成員を前進させるために必要な設計変数の修正を学習する機械学習(ML-)支援モデル手法を提案する。
論文参考訳（メタデータ） (2020-11-21T10:29:15Z)
Meta-Learning Divergences of Variational Inference [49.164944557174294]
変分推論(VI)は、近似ベイズ推論において重要な役割を果たす。本稿では,興味ある課題に適した分散度を学習するためのメタ学習アルゴリズムを提案する。提案手法はガウス混合分布近似の標準VIより優れていることを示す。
論文参考訳（メタデータ） (2020-07-06T17:43:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。