論文の概要: Characterizing Speed Performance of Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.07108v1
- Date: Wed, 13 Sep 2023 17:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 13:08:46.726431
- Title: Characterizing Speed Performance of Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習の速度特性評価
- Authors: Samuel Wiggins, Yuan Meng, Rajgopal Kannan, Viktor Prasanna
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)は、大規模AIシステムや、スマートグリッドや監視などビッグデータアプリケーションにおいて、大きな成功を収めています。
MARLアルゴリズムの既存の進歩は、エージェント間協調のための様々なメカニズムを導入して得られる報酬の改善に焦点を当てている。
我々は、MARL実装において、速度性能(すなわち、レイテンシ境界スループット)を重要な指標として分析する。
- 参考スコア(独自算出の注目度): 5.313762764969945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent Reinforcement Learning (MARL) has achieved significant success in
large-scale AI systems and big-data applications such as smart grids,
surveillance, etc. Existing advancements in MARL algorithms focus on improving
the rewards obtained by introducing various mechanisms for inter-agent
cooperation. However, these optimizations are usually compute- and
memory-intensive, thus leading to suboptimal speed performance in end-to-end
training time. In this work, we analyze the speed performance (i.e.,
latency-bounded throughput) as the key metric in MARL implementations.
Specifically, we first introduce a taxonomy of MARL algorithms from an
acceleration perspective categorized by (1) training scheme and (2)
communication method. Using our taxonomy, we identify three state-of-the-art
MARL algorithms - Multi-Agent Deep Deterministic Policy Gradient (MADDPG),
Target-oriented Multi-agent Communication and Cooperation (ToM2C), and
Networked Multi-Agent RL (NeurComm) - as target benchmark algorithms, and
provide a systematic analysis of their performance bottlenecks on a homogeneous
multi-core CPU platform. We justify the need for MARL latency-bounded
throughput to be a key performance metric in future literature while also
addressing opportunities for parallelization and acceleration.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)は、大規模AIシステムや、スマートグリッドや監視などビッグデータアプリケーションで大きな成功を収めています。
MARLアルゴリズムの既存の進歩は、エージェント間協調のための様々なメカニズムを導入して得られる報酬の改善に焦点を当てている。
しかし、これらの最適化は通常、計算量とメモリ集約性があり、エンドツーエンドのトレーニング時間での最適化速度を低下させる。
本研究では,MARL実装における速度特性(すなわちレイテンシ境界スループット)を重要な指標として分析する。
具体的には,(1)訓練方式と(2)通信方式によって分類された加速度の観点から,まずMARLアルゴリズムの分類を導入する。
分類法を用いて,マルチエージェント・ディープ・Deep Deterministic Policy Gradient (MADDPG),ターゲット指向マルチエージェント通信・協調 (ToM2C),ネットワークマルチエージェントRL (NeurComm) の3種類のMARLアルゴリズムを目標ベンチマークアルゴリズムとして同定し,その性能ボトルネックを均質なマルチコアCPUプラットフォーム上でシステマティックに解析する。
我々は、MARLレイテンシバウンドスループットが将来の文献において重要なパフォーマンス指標となることの必要性を正当化するとともに、並列化とアクセラレーションの機会に対処する。
関連論文リスト
- Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training [38.03693752287459]
マルチエージェント強化学習(MARL)は、マルチエージェントシナリオにおいて、多数のパラメータを持つニューラルネットワークに依存している。
本稿では,動的スパーストレーニング(DST)の利用法を提案する。
本稿では,学習目標の信頼性とサンプル分布の合理性を同時に向上することを目的とした,革新的なマルチエージェントスパーストレーニング(MAST)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T15:57:24Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Multi-Objective Optimization Using Adaptive Distributed Reinforcement Learning [8.471466670802815]
本稿では,多目的・マルチエージェント強化学習(MARL)アルゴリズムを提案する。
我々はエッジクラウドコンピューティングを用いたITS環境でアルゴリズムをテストする。
また,本アルゴリズムは,モジュール化および非同期オンライントレーニング手法により,様々な実用上の問題にも対処する。
論文 参考訳(メタデータ) (2024-03-13T18:05:16Z) - Asynchronous Local Computations in Distributed Bayesian Learning [8.516532665507835]
本稿では,高速な計算と通信オーバヘッドを同時に低減するために,ゴシップに基づく通信を提案する。
我々は、特に低データ範囲において、より高速な初期収束と性能精度の向上を観察する。
UCI MLレポジトリのガンマ望遠鏡とmHealthデータセットで,それぞれ平均78%,90%以上の分類精度を達成した。
論文 参考訳(メタデータ) (2023-11-06T20:11:41Z) - Quantum Multi-Agent Reinforcement Learning for Autonomous Mobility
Cooperation [14.606459096293088]
本稿ではアクター・クリティカルネットワークの概念に基づく量子MARL(QMARL)アルゴリズムを提案する。
我々のQMARLは、量子超越性による効率的なパラメータ利用と高速収束の点で有益である。
プロジェクション値測度(PVM)と呼ばれる拡張性のための新たな手法が提案されている。
論文 参考訳(メタデータ) (2023-08-03T03:29:25Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。