論文の概要: CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.08412v1
- Date: Wed, 16 Mar 2022 06:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 16:01:55.856822
- Title: CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning
- Title(参考訳): CTDS:マルチエージェント強化学習のための分散学生中心教師
- Authors: Jian Zhao, Xunhan Hu, Mingyu Yang, Wengang Zhou, Jiangcheng Zhu and
Houqiang Li
- Abstract要約: この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
- 参考スコア(独自算出の注目度): 114.69155066932046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the partial observability and communication constraints in many
multi-agent reinforcement learning (MARL) tasks, centralized training with
decentralized execution (CTDE) has become one of the most widely used MARL
paradigms. In CTDE, centralized information is dedicated to learning the
allocation of the team reward with a mixing network, while the learning of
individual Q-values is usually based on local observations. The insufficient
utility of global observation will degrade performance in challenging
environments. To this end, this work proposes a novel Centralized Teacher with
Decentralized Student (CTDS) framework, which consists of a teacher model and a
student model. Specifically, the teacher model allocates the team reward by
learning individual Q-values conditioned on global observation, while the
student model utilizes the partial observations to approximate the Q-values
estimated by the teacher model. In this way, CTDS balances the full utilization
of global observation during training and the feasibility of decentralized
execution for online inference. Our CTDS framework is generic which is ready to
be applied upon existing CTDE methods to boost their performance. We conduct
experiments on a challenging set of StarCraft II micromanagement tasks to test
the effectiveness of our method and the results show that CTDS outperforms the
existing value-based MARL methods.
- Abstract(参考訳): 多くのマルチエージェント強化学習(MARL)タスクにおける部分的可観測性と通信制約のため、分散実行(CTDE)による集中トレーニングは最も広く使われているMARLパラダイムの1つとなっている。
ctdeでは、集中型情報はミキシングネットワークでチーム報酬の割り当てを学ぶことに専念し、個々のq値の学習は通常局所的な観察に基づいて行われる。
グローバル観測の不十分な実用性は、挑戦的な環境でのパフォーマンスを低下させる。
この目的のために,本研究では,教師モデルと学生モデルからなる,分散学生による集中教師(CTDS)フレームワークを提案する。
具体的には、教師モデルは、グローバル観察に基づく個別のq値を学び、教師モデルは、教師モデルによって推定されるq値の近似に部分的観察を利用する。
このように、CTDSは、トレーニング中のグローバルな観察のフル活用と、オンライン推論のための分散実行の実現可能性のバランスをとる。
私たちのCTDSフレームワークはジェネリックであり、既存のCTDEメソッドに適用してパフォーマンスを向上させる準備ができています。
本手法の有効性を検証するために,StarCraft II マイクロマネジメントの課題に対して実験を行い,CTDS が既存の値ベース MARL 法より優れていることを示す。
関連論文リスト
- DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - KDSM: An uplift modeling framework based on knowledge distillation and
sample matching [2.036924568983982]
昇降モデリングは、個人に対する治療効果を推定することを目的としている。
木に基づく手法は増分と一般化に適しており、ニューラルネットベースのモデルは絶対値と精度の予測に優れている。
本稿では,知識蒸留とサンプルマッチング(KDSM)に基づくアップリフトモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T09:15:28Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z) - EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual
Question Answering [53.40635559899501]
クリーンで多様なラベル付きデータは、視覚的質問応答(VQA)のような複雑なタスクのモデルをトレーニングするための主要な障害である
我々は、ラベルのない画像を利用してモデルを事前訓練するための自己教師付き手法をレビューし、評価し、それをカスタムVQAタスクで微調整する。
EBMもCLもラベルのない画像から表現を学習でき、非常に少ない注釈付きデータでVQAモデルをトレーニングできることがわかった。
論文 参考訳(メタデータ) (2022-06-29T01:44:23Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。