論文の概要: PTDE: Personalized Training with Distillated Execution for Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.08872v1
- Date: Mon, 17 Oct 2022 09:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:50:36.295228
- Title: PTDE: Personalized Training with Distillated Execution for Multi-Agent
Reinforcement Learning
- Title(参考訳): ptde:マルチエージェント強化学習のための蒸留処理によるパーソナライズトレーニング
- Authors: Yiqun Chen, Hangyu Mao, Tianle Zhang, Shiguang Wu, Bin Zhang, Jianye
Hao, Dong Li, Bin Wang, Hongxing Chang
- Abstract要約: 分散実行訓練(CTDE)は多エージェント強化学習において非常に一般的なパラダイムである。
我々は,エージェント固有のグローバル情報を得るために,エージェントごとのグローバル情報を指定することを提案する。
我々はこの新パラダイムをPTDE(Personalized Training with Distillated Execution)と呼ぶ。
- 参考スコア(独自算出の注目度): 25.731541683746645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized Training with Decentralized Execution (CTDE) has been a very
popular paradigm for multi-agent reinforcement learning. One of its main
features is making full use of the global information to learn a better joint
$Q$-function or centralized critic. In this paper, we in turn explore how to
leverage the global information to directly learn a better individual
$Q$-function or individual actor. We find that applying the same global
information to all agents indiscriminately is not enough for good performance,
and thus propose to specify the global information for each agent to obtain
agent-specific global information for better performance. Furthermore, we
distill such agent-specific global information into the agent's local
information, which is used during decentralized execution without too much
performance degradation. We call this new paradigm Personalized Training with
Distillated Execution (PTDE). PTDE can be easily combined with many
state-of-the-art algorithms to further improve their performance, which is
verified in both SMAC and Google Research Football scenarios.
- Abstract(参考訳): 分散実行による集中訓練(CTDE)は多エージェント強化学習において非常に一般的なパラダイムである。
その主な特徴の1つは、グローバルな情報を最大限に活用して、q$-functionや一元的な批判から学ぶことだ。
本稿では,グローバルな情報を活用して,より優れた個別のQ$関数や個人アクターを直接学習する方法について検討する。
我々は,同一のグローバル情報をすべてのエージェントに無差別に適用しても良好なパフォーマンスには十分ではないことを見出し,より優れたパフォーマンスのためにエージェント固有のグローバル情報を得るために,各エージェントのグローバル情報を指定することを提案する。
さらに,エージェント固有のグローバル情報を分散実行時に使用するエージェントのローカル情報に抽出し,性能の低下を伴わずに処理を行う。
我々はこの新たなパラダイムをPTDE(Personalized Training with Distillated Execution)と呼ぶ。
PTDEは、多くの最先端のアルゴリズムと簡単に組み合わせて、パフォーマンスをさらに向上させることができ、SMACとGoogle Research Footballのシナリオで検証される。
関連論文リスト
- FedLPA: Personalized One-shot Federated Learning with Layer-Wise
Posterior Aggregation [7.406222956685339]
ローカルクライアントからグローバルモデルへのトレーニングされたニューラルネットワークのワンショットアグリゲーションは、研究者の間で人気を集めている。
我々はFedLPAという名前のレイヤーワイズ後アグリゲーションを用いたワンショットアグリゲーション手法を提案する。
以上の結果から,FedLPAは最先端の手法よりも学習性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:51:27Z) - Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Scalable Multi-Agent Reinforcement Learning through Intelligent
Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。
InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文 参考訳(メタデータ) (2022-11-03T20:02:45Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Decentralised Person Re-Identification with Selective Knowledge
Aggregation [56.40855978874077]
既存の人物再識別(Re-ID)手法は、主に、モデル学習のためのコレクションにすべてのトレーニングデータを共有する集中型学習パラダイムに従っている。
グローバルに一般化されたモデル(サーバ)を構築するための分散(フェデレーション)Re-ID学習を導入した最近の2つの作品がある。
しかし、これらの手法は、個々のクライアントドメインのRe-IDタスクのパフォーマンスを最大化するために一般化されたモデルを適用する方法に乏しい。
我々は、モデルパーソナライゼーションと一般化のトレードオフを最適化するために、分散化されたRe-IDに対して、新しい選択的知識集約アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-21T18:09:53Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。