Fugu-MT 論文翻訳(概要): PTDE: Personalized Training with Distillated Execution for Multi-Agent Reinforcement Learning

論文の概要: PTDE: Personalized Training with Distillated Execution for Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.08872v1
Date: Mon, 17 Oct 2022 09:08:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 17:50:36.295228
Title: PTDE: Personalized Training with Distillated Execution for Multi-Agent Reinforcement Learning
Title（参考訳）: ptde:マルチエージェント強化学習のための蒸留処理によるパーソナライズトレーニング
Authors: Yiqun Chen, Hangyu Mao, Tianle Zhang, Shiguang Wu, Bin Zhang, Jianye Hao, Dong Li, Bin Wang, Hongxing Chang
Abstract要約: 分散実行訓練(CTDE)は多エージェント強化学習において非常に一般的なパラダイムである。我々は,エージェント固有のグローバル情報を得るために,エージェントごとのグローバル情報を指定することを提案する。我々はこの新パラダイムをPTDE(Personalized Training with Distillated Execution)と呼ぶ。
参考スコア（独自算出の注目度）: 25.731541683746645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Centralized Training with Decentralized Execution (CTDE) has been a very popular paradigm for multi-agent reinforcement learning. One of its main features is making full use of the global information to learn a better joint $Q$-function or centralized critic. In this paper, we in turn explore how to leverage the global information to directly learn a better individual $Q$-function or individual actor. We find that applying the same global information to all agents indiscriminately is not enough for good performance, and thus propose to specify the global information for each agent to obtain agent-specific global information for better performance. Furthermore, we distill such agent-specific global information into the agent's local information, which is used during decentralized execution without too much performance degradation. We call this new paradigm Personalized Training with Distillated Execution (PTDE). PTDE can be easily combined with many state-of-the-art algorithms to further improve their performance, which is verified in both SMAC and Google Research Football scenarios.
Abstract（参考訳）: 分散実行による集中訓練(CTDE)は多エージェント強化学習において非常に一般的なパラダイムである。その主な特徴の1つは、グローバルな情報を最大限に活用して、q$-functionや一元的な批判から学ぶことだ。本稿では,グローバルな情報を活用して,より優れた個別のQ$関数や個人アクターを直接学習する方法について検討する。我々は,同一のグローバル情報をすべてのエージェントに無差別に適用しても良好なパフォーマンスには十分ではないことを見出し,より優れたパフォーマンスのためにエージェント固有のグローバル情報を得るために,各エージェントのグローバル情報を指定することを提案する。さらに,エージェント固有のグローバル情報を分散実行時に使用するエージェントのローカル情報に抽出し,性能の低下を伴わずに処理を行う。我々はこの新たなパラダイムをPTDE(Personalized Training with Distillated Execution)と呼ぶ。 PTDEは、多くの最先端のアルゴリズムと簡単に組み合わせて、パフォーマンスをさらに向上させることができ、SMACとGoogle Research Footballのシナリオで検証される。

関連論文リスト

WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。 WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文参考訳（メタデータ） (2025-07-03T12:59:07Z)
Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-02-24T05:56:47Z)
Tacit Learning with Adaptive Information Selection for Cooperative Multi-Agent Reinforcement Learning [13.918498667158119]
本稿では,情報選択と暗黙学習に基づく新しい協調型MARLフレームワークを提案する。我々はゲーティングと選択機構を統合し、エージェントが環境変化に基づいて情報を適応的にフィルタリングできるようにする。人気のあるMARLベンチマークの実験により、我々のフレームワークは最先端のアルゴリズムとシームレスに統合できることが示された。
論文参考訳（メタデータ） (2024-12-20T07:55:59Z)
FedLPA: One-shot Federated Learning with Layer-Wise Posterior Aggregation [7.052566906745796]
FedLPAは、フェデレートラーニングのための階層的な後続アグリゲーション手法である。以上の結果から,FedLPAは最先端の手法よりも学習性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-09-30T10:51:27Z)
Evaluating and Incentivizing Diverse Data Contributions in Collaborative Learning [89.21177894013225]
フェデレートされた学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。データの多様性を定量化するために用いられる統計的基準と、使用するフェデレート学習アルゴリズムの選択が、結果の平衡に有意な影響を及ぼすことを示す。我々はこれを活用して、データ収集者がグローバルな人口を代表するデータに貢献することを奨励する、シンプルな最適なフェデレーション学習機構を設計する。
論文参考訳（メタデータ） (2023-06-08T23:38:25Z)
Is Centralized Training with Decentralized Execution Framework Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-27T03:15:24Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文参考訳（メタデータ） (2022-11-02T07:42:48Z)
CTDS: Centralized Teacher with Decentralized Student for Multi-Agent Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文参考訳（メタデータ） (2022-03-16T06:03:14Z)
AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文参考訳（メタデータ） (2021-05-10T08:39:56Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Distributed Resource Scheduling for Large-Scale MEC Systems: A Multi-Agent Ensemble Deep Reinforcement Learning with Imitation Acceleration [44.40722828581203]
本稿では,各MECサーバにデプロイされた各エージェントのグローバル情報と分散意思決定に依存する集中型トレーニングを含む分散インテリジェントリソーススケジューリング(DIRS)フレームワークを提案する。まず,マルチエージェント・アンサンブルを用いた分散強化学習(DRL)アーキテクチャを導入し,各エージェントの全体的なニューラルネットワーク構造を簡素化する。第2に,提案したDIRSフレームワークの探索能力を高めるために,新しいL'evyフライトサーチにより,最適に近い状態対が得られた。
論文参考訳（メタデータ） (2020-05-21T20:04:40Z)
Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文参考訳（メタデータ） (2020-05-19T05:32:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。