論文の概要: PTDE: Personalized Training with Distillated Execution for Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.08872v1
- Date: Mon, 17 Oct 2022 09:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:50:36.295228
- Title: PTDE: Personalized Training with Distillated Execution for Multi-Agent
Reinforcement Learning
- Title(参考訳): ptde:マルチエージェント強化学習のための蒸留処理によるパーソナライズトレーニング
- Authors: Yiqun Chen, Hangyu Mao, Tianle Zhang, Shiguang Wu, Bin Zhang, Jianye
Hao, Dong Li, Bin Wang, Hongxing Chang
- Abstract要約: 分散実行訓練(CTDE)は多エージェント強化学習において非常に一般的なパラダイムである。
我々は,エージェント固有のグローバル情報を得るために,エージェントごとのグローバル情報を指定することを提案する。
我々はこの新パラダイムをPTDE(Personalized Training with Distillated Execution)と呼ぶ。
- 参考スコア(独自算出の注目度): 25.731541683746645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized Training with Decentralized Execution (CTDE) has been a very
popular paradigm for multi-agent reinforcement learning. One of its main
features is making full use of the global information to learn a better joint
$Q$-function or centralized critic. In this paper, we in turn explore how to
leverage the global information to directly learn a better individual
$Q$-function or individual actor. We find that applying the same global
information to all agents indiscriminately is not enough for good performance,
and thus propose to specify the global information for each agent to obtain
agent-specific global information for better performance. Furthermore, we
distill such agent-specific global information into the agent's local
information, which is used during decentralized execution without too much
performance degradation. We call this new paradigm Personalized Training with
Distillated Execution (PTDE). PTDE can be easily combined with many
state-of-the-art algorithms to further improve their performance, which is
verified in both SMAC and Google Research Football scenarios.
- Abstract(参考訳): 分散実行による集中訓練(CTDE)は多エージェント強化学習において非常に一般的なパラダイムである。
その主な特徴の1つは、グローバルな情報を最大限に活用して、q$-functionや一元的な批判から学ぶことだ。
本稿では,グローバルな情報を活用して,より優れた個別のQ$関数や個人アクターを直接学習する方法について検討する。
我々は,同一のグローバル情報をすべてのエージェントに無差別に適用しても良好なパフォーマンスには十分ではないことを見出し,より優れたパフォーマンスのためにエージェント固有のグローバル情報を得るために,各エージェントのグローバル情報を指定することを提案する。
さらに,エージェント固有のグローバル情報を分散実行時に使用するエージェントのローカル情報に抽出し,性能の低下を伴わずに処理を行う。
我々はこの新たなパラダイムをPTDE(Personalized Training with Distillated Execution)と呼ぶ。
PTDEは、多くの最先端のアルゴリズムと簡単に組み合わせて、パフォーマンスをさらに向上させることができ、SMACとGoogle Research Footballのシナリオで検証される。
関連論文リスト
- FedLPA: One-shot Federated Learning with Layer-Wise Posterior Aggregation [7.052566906745796]
FedLPAは、フェデレートラーニングのための階層的な後続アグリゲーション手法である。
以上の結果から,FedLPAは最先端の手法よりも学習性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:51:27Z) - Evaluating and Incentivizing Diverse Data Contributions in Collaborative
Learning [89.21177894013225]
フェデレートされた学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。
データの多様性を定量化するために用いられる統計的基準と、使用するフェデレート学習アルゴリズムの選択が、結果の平衡に有意な影響を及ぼすことを示す。
我々はこれを活用して、データ収集者がグローバルな人口を代表するデータに貢献することを奨励する、シンプルな最適なフェデレーション学習機構を設計する。
論文 参考訳(メタデータ) (2023-06-08T23:38:25Z) - Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Distributed Resource Scheduling for Large-Scale MEC Systems: A
Multi-Agent Ensemble Deep Reinforcement Learning with Imitation Acceleration [44.40722828581203]
本稿では,各MECサーバにデプロイされた各エージェントのグローバル情報と分散意思決定に依存する集中型トレーニングを含む分散インテリジェントリソーススケジューリング(DIRS)フレームワークを提案する。
まず,マルチエージェント・アンサンブルを用いた分散強化学習(DRL)アーキテクチャを導入し,各エージェントの全体的なニューラルネットワーク構造を簡素化する。
第2に,提案したDIRSフレームワークの探索能力を高めるために,新しいL'evyフライトサーチにより,最適に近い状態対が得られた。
論文 参考訳(メタデータ) (2020-05-21T20:04:40Z) - Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。
本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文 参考訳(メタデータ) (2020-05-19T05:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。