Fugu-MT 論文翻訳(概要): Distributed Multi-Agent Reinforcement Learning with One-hop Neighbors and Compute Straggler Mitigation

論文の概要: Distributed Multi-Agent Reinforcement Learning with One-hop Neighbors and Compute Straggler Mitigation

arxiv url: http://arxiv.org/abs/2202.09019v3
Date: Mon, 30 Dec 2024 21:34:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-03 22:24:07.601463
Title: Distributed Multi-Agent Reinforcement Learning with One-hop Neighbors and Compute Straggler Mitigation
Title（参考訳）: ワンホップ近傍と演算ストラグラー緩和を用いた分散マルチエージェント強化学習
Authors: Baoqian Wang, Junfei Xie, Nikolay Atanasov,
Abstract要約: 本稿では,DARL1N(One-hop Neighbors)を用いた分散マルチエージェント強化学習法を提案する。 DARL1Nは、エージェント間の情報交換をワンホップの隣人に制限することで、次元の呪いに対処する、非政治的なアクター批判的手法である。トラグラー効果を緩和するために,トラグラーに対する学習システムのレジリエンスを改善するために,デトリメンタルコーディング理論を活用する,新しい符号化型分散学習アーキテクチャを導入する。
参考スコア（独自算出の注目度）: 18.067507472516063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most multi-agent reinforcement learning (MARL) methods are limited in the scale of problems they can handle. With increasing numbers of agents, the number of training iterations required to find the optimal behaviors increases exponentially due to the exponentially growing joint state and action spaces. This paper tackles this limitation by introducing a scalable MARL method called Distributed multi-Agent Reinforcement Learning with One-hop Neighbors (DARL1N). DARL1N is an off-policy actor-critic method that addresses the curse of dimensionality by restricting information exchanges among the agents to one-hop neighbors when representing value and policy functions. Each agent optimizes its value and policy functions over a one-hop neighborhood, significantly reducing the learning complexity, yet maintaining expressiveness by training with varying neighbor numbers and states. This structure allows us to formulate a distributed learning framework to further speed up the training procedure. Distributed computing systems, however, contain straggler compute nodes, which are slow or unresponsive due to communication bottlenecks, software or hardware problems. To mitigate the detrimental straggler effect, we introduce a novel coded distributed learning architecture, which leverages coding theory to improve the resilience of the learning system to stragglers. Comprehensive experiments show that DARL1N significantly reduces training time without sacrificing policy quality and is scalable as the number of agents increases. Moreover, the coded distributed learning architecture improves training efficiency in the presence of stragglers.
Abstract（参考訳）: ほとんどのマルチエージェント強化学習(MARL)法は、扱える問題の規模に制限がある。エージェントの数が増加するにつれて、指数関数的に増加する結合状態と行動空間のために最適な振る舞いを見つけるのに必要なトレーニングイテレーションの数が指数関数的に増加する。本稿では,分散マルチエージェント強化学習(Distributed Multi-Agent Reinforcement Learning with One-hop Neighbors, DARL1N)と呼ばれるスケーラブルなMARL手法を導入することで,この制限に対処する。 DARL1Nは、価値とポリシー関数を表現する際に、エージェント間の情報交換をワンホップ隣人に制限することで、次元の呪いに対処する、非政治的なアクター批判的手法である。各エージェントは、その価値とポリシー機能をワンホップ地区で最適化し、学習の複雑さを著しく減らし、隣り合う数や状態の訓練によって表現力を維持する。この構造により、分散学習フレームワークを定式化して、トレーニング手順をさらに高速化することができます。しかし、分散コンピューティングシステムにはストラグラー計算ノードが含まれており、通信のボトルネックやソフトウェア、ハードウェアの問題による応答が遅い。そこで本研究では,学習システムの弾力性を向上させるために,符号化理論を活用した分散学習アーキテクチャを提案する。総合的な実験により、DARL1Nは政策品質を犠牲にすることなくトレーニング時間を著しく短縮し、エージェント数が増加するにつれてスケーラブルであることが示された。さらに、コード化された分散学習アーキテクチャは、ストラグラーの存在下でのトレーニング効率を向上させる。

関連論文リスト

From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Communication-Efficient Training Workload Balancing for Decentralized Multi-Agent Learning [20.683081355473664]
分散マルチエージェント学習(DML)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にする。 ComDMLは分散アプローチを通じてエージェント間のワークロードのバランスをとる。 ComDMLは、最先端の手法と比較して、モデル精度を維持しながら、トレーニング全体の時間を著しく短縮することができる。
論文参考訳（メタデータ） (2024-05-01T20:03:37Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Promoting Generalization for Exact Solvers via Adversarial Instance Augmentation [62.738582127114704]
Adarは、模倣学習ベース(ILベース)と強化学習ベース(RLベース)の両方の一般化を理解し、改善するためのフレームワークである。
論文参考訳（メタデータ） (2023-10-22T03:15:36Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Diversity Through Exclusion (DTE): Niche Identification for Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文参考訳（メタデータ） (2023-02-02T16:00:19Z)
RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。 RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2022-10-18T07:32:43Z)
Residual Q-Networks for Value Function Factorizing in Multi-Agent Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。 RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文参考訳（メタデータ） (2022-05-30T16:56:06Z)
Depthwise Convolution for Multi-Agent Communication with Enhanced Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文参考訳（メタデータ） (2022-03-06T07:42:43Z)
Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。 PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文参考訳（メタデータ） (2021-12-23T17:48:04Z)
Local Advantage Networks for Cooperative Multi-Agent Reinforcement Learning [1.1879716317856945]
本稿では,協調的部分観測環境のための新しいタイプの強化学習アルゴリズムを提案する。我々は、各エージェントに対して、個別の利点関数を介して分散化されたベストレスポンスポリシーを学ぶために、デュエルアーキテクチャを使用します。 StarCraft IIマルチエージェントチャレンジベンチマークの評価は、LANが最先端のパフォーマンスに達することを示している。
論文参考訳（メタデータ） (2021-12-23T10:55:33Z)
Evaluating Generalization and Transfer Capacity of Multi-Agent Reinforcement Learning Across Variable Number of Agents [0.0]
マルチエージェント強化学習(MARL)問題は、タスクを解決するためにエージェント間の協調を必要とすることが多い。中央集権化と分散化は、MARLにおける協力のための2つのアプローチである。分散実行パラダイムを用いた集中型トレーニングを採用し, エージェント数に応じて, 学習モデルの一般化と伝達能力について検討する。
論文参考訳（メタデータ） (2021-11-28T15:29:46Z)
Relative Distributed Formation and Obstacle Avoidance with Multi-agent Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文参考訳（メタデータ） (2021-11-14T13:02:45Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Many Agent Reinforcement Learning Under Partial Observability [10.11960004698409]
我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。
論文参考訳（メタデータ） (2021-06-17T21:24:29Z)
Coding for Distributed Multi-Agent Reinforcement Learning [12.366967700730449]
ストラグラーは、様々なシステム障害が存在するため、分散学習システムで頻繁に発生する。本稿では,ストラグラーの存在下でのMARLアルゴリズムの学習を高速化する分散学習フレームワークを提案する。最大距離分離可能(MDS)コード、ランダムスパースコード、レプリケーションベースのコード、通常の低密度パリティチェック(LDPC)コードなど、さまざまなコーディングスキームも検討されている。
論文参考訳（メタデータ） (2021-01-07T00:22:34Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。