Fugu-MT 論文翻訳(概要): Robust Multi-Agent Control via Maximum Entropy Heterogeneous-Agent Reinforcement Learning

論文の概要: Robust Multi-Agent Control via Maximum Entropy Heterogeneous-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.10715v5
Date: Wed, 11 Dec 2024 16:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.23364
Title: Robust Multi-Agent Control via Maximum Entropy Heterogeneous-Agent Reinforcement Learning
Title（参考訳）: 最大エントロピー不均質強化学習によるロバストマルチエージェント制御
Authors: Simin Li, Yifan Zhong, Jiarong Liu, Jianing Guo, Siyuan Qi, Ruixiao Xu, Xin Yu, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang, Yujing Hu, Bo An, Xianglong Liu, Yaodong Yang,
Abstract要約: 本稿では,マルチエージェント強化学習における課題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。 The MaxEnt framework, we propose emphHeterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。 HASACは, Bi-DexHands, Multi-Agent MuJoCo, Pursuit-Evade, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Gameの7つのベンチマークで評価した。
参考スコア（独自算出の注目度）: 65.60470000696944
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In multi-agent reinforcement learning, optimal control with robustness guarantees are critical for its deployment in real world. However, existing methods face challenges related to sample complexity, training instability, potential suboptimal Nash Equilibrium convergence and non-robustness to multiple perturbations. In this paper, we propose a unified framework for learning \emph{stochastic} policies to resolve these issues. We embed cooperative MARL problems into probabilistic graphical models, from which we derive the maximum entropy (MaxEnt) objective optimal for MARL. Based on the MaxEnt framework, we propose \emph{Heterogeneous-Agent Soft Actor-Critic} (HASAC) algorithm. Theoretically, we prove the monotonic improvement and convergence to \emph{quantal response equilibrium} (QRE) properties of HASAC. Furthermore, HASAC is provably robust against a wide range of real-world uncertainties, including perturbations in rewards, environment dynamics, states, and actions. Finally, we generalize a unified template for MaxEnt algorithmic design named \emph{Maximum Entropy Heterogeneous-Agent Mirror Learning} (MEHAML), which provides any induced method with the same guarantees as HASAC. We evaluate HASAC on seven benchmarks: Bi-DexHands, Multi-Agent MuJoCo, Pursuit-Evade, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Game. Results show that HASAC consistently outperforms strong baselines in 34 out of 38 tasks, exhibiting improved training stability, better sample efficiency and sufficient exploration. The robustness of HASAC was further validated when encountering uncertainties in rewards, dynamics, states, and actions of 14 magnitudes, and real-world deployment in a multi-robot arena against these four types of uncertainties. See our page at \url{https://sites.google.com/view/meharl}.
Abstract（参考訳）: マルチエージェント強化学習では、ロバスト性保証による最適制御が実世界での展開に不可欠である。しかし、既存の手法では、サンプルの複雑さ、トレーニング不安定性、潜在的最適ナッシュ平衡収束および複数の摂動に対する非破壊性に関連する課題に直面している。本稿では,これらの問題を解決するために,emph{stochastic}ポリシーを学習するための統一的な枠組みを提案する。我々は協調的なMARL問題を確率的グラフィカルモデルに組み込み、MARLの最大エントロピー(MaxEnt)を最適に導出する。 The MaxEnt framework, we propose \emph{Heterogeneous-Agent Soft Actor-Critic} (HASAC) algorithm。理論的には、HASAC の 'emph{quantal response equilibrium} (QRE) 特性に対する単調な改善と収束を証明する。さらに、HASACは、報酬の摂動、環境力学、状態、行動など、幅広い現実世界の不確実性に対して、確実に堅牢である。最後に,HASAC と同じ保証を持つ任意の誘導法を提供する「emph{Maximum Entropy Heterogeneous-Agent Mirror Learning} (MEHAML) 」というアルゴリズム設計のための統一テンプレートを一般化する。 HASACは, Bi-DexHands, Multi-Agent MuJoCo, Pursuit-Evade, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Gameの7つのベンチマークで評価した。その結果,HASACは38タスク中34タスクにおいて強いベースラインを一貫して上回り,トレーニング安定性の向上,サンプル効率の向上,十分な探索が得られた。 HASACのロバスト性は、14等級の報酬、ダイナミクス、状態、行動の不確実性に遭遇し、これらの4種類の不確実性に対するマルチロボットアリーナにおける実世界展開においてさらに検証された。われわれのページは \url{https://sites.google.com/view/meharl} にある。

関連論文リスト

Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。 MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2～5倍に向上させることを示した。
論文参考訳（メタデータ） (2025-03-06T18:22:29Z)
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文参考訳（メタデータ） (2024-12-22T15:16:44Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。 RMGがマルチ緊急の呪いから逃れられるかどうか。これは、RMGに対するマルチ緊急の呪いを破る最初のアルゴリズムである。
論文参考訳（メタデータ） (2024-09-30T08:09:41Z)
Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文参考訳（メタデータ） (2024-04-30T06:48:56Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文参考訳（メタデータ） (2023-10-10T01:39:04Z)
Heterogeneous-Agent Reinforcement Learning [16.796016254366524]
ヘテロジニアス強化学習(HARL)アルゴリズムを提案する。本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。 HAMLから派生した全てのアルゴリズムは本質的に、Nash Equilibriumへのジョイントリターンと収束の単調な改善を享受することを証明する。
論文参考訳（メタデータ） (2023-04-19T05:08:02Z)
Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL [10.681450002239355]
Heterogeneous-Agent Mirror Learning (HAML)は、MARLアルゴリズム設計のための一般的なテンプレートを提供する。 HAMLテンプレートから得られたアルゴリズムが,関節報酬の単調改善の望ましい特性を満たすことを証明した。本稿では,2つの有名なRLアルゴリズムであるHAA2C(A2C)とHADDPG(DDPG)のHAML拡張を提案する。
論文参考訳（メタデータ） (2022-08-02T18:16:42Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。