Fugu-MT 論文翻訳(概要): Double Distillation Network for Multi-Agent Reinforcement Learning

論文の概要: Double Distillation Network for Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2502.03125v1
Date: Wed, 05 Feb 2025 12:31:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:51.081945
Title: Double Distillation Network for Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習のための二重蒸留ネットワーク
Authors: Yang Zhou, Siying Wang, Wenyu Chen, Ruoning Zhang, Zhitong Zhao, Zixuan Zhang,
Abstract要約: 本稿では,2つの蒸留モジュールを組み込んだDouble Distillation Network(DDN)について紹介する。外部蒸留モジュールは、グローバルガイドネットワークとローカルポリシーネットワークを使用し、グローバルトレーニングとローカル実行のギャップを緩和するために蒸留を利用する。さらに、内部蒸留モジュールは、状態情報から引き出された固有報酬を導入し、エージェントの探索能力を高める。
参考スコア（独自算出の注目度）: 16.854683579878028
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent reinforcement learning typically employs a centralized training-decentralized execution (CTDE) framework to alleviate the non-stationarity in environment. However, the partial observability during execution may lead to cumulative gap errors gathered by agents, impairing the training of effective collaborative policies. To overcome this challenge, we introduce the Double Distillation Network (DDN), which incorporates two distillation modules aimed at enhancing robust coordination and facilitating the collaboration process under constrained information. The external distillation module uses a global guiding network and a local policy network, employing distillation to reconcile the gap between global training and local execution. In addition, the internal distillation module introduces intrinsic rewards, drawn from state information, to enhance the exploration capabilities of agents. Extensive experiments demonstrate that DDN significantly improves performance across multiple scenarios.
Abstract（参考訳）: マルチエージェント強化学習は、通常、環境の非定常性を軽減するために、集中訓練分散実行(CTDE)フレームワークを使用する。しかし、実行中の部分的な可観測性は、エージェントが収集した累積的なギャップエラーを招き、効果的な協調政策の訓練を損なう可能性がある。この課題を克服するために,2つの蒸留モジュールを組み込んだDouble Distillation Network(DDN)を導入する。外部蒸留モジュールは、グローバルガイドネットワークとローカルポリシーネットワークを使用し、グローバルトレーニングとローカル実行のギャップを緩和するために蒸留を利用する。さらに、内部蒸留モジュールは、状態情報から引き出された固有報酬を導入し、エージェントの探索能力を高める。大規模な実験では、DDNは複数のシナリオでパフォーマンスを大幅に改善する。

関連論文リスト

MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。 MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文参考訳（メタデータ） (2025-05-30T14:46:05Z)
Distributed Value Decomposition Networks with Networked Agents [3.8779763612314633]
エージェントワイズQ関数に分解する結合Q関数を生成する分散値分解ネットワーク(DVDN)を提案する。 DVDNは、共有目的を局所的に推定することで、集中的なトレーニングの必要性を克服する。実証的に、両アルゴリズムは通信中の情報損失にもかかわらず、値分解ネットワークの性能を近似する。
論文参考訳（メタデータ） (2025-02-11T15:23:05Z)
Tacit Learning with Adaptive Information Selection for Cooperative Multi-Agent Reinforcement Learning [13.918498667158119]
本稿では,情報選択と暗黙学習に基づく新しい協調型MARLフレームワークを提案する。我々はゲーティングと選択機構を統合し、エージェントが環境変化に基づいて情報を適応的にフィルタリングできるようにする。人気のあるMARLベンチマークの実験により、我々のフレームワークは最先端のアルゴリズムとシームレスに統合できることが示された。
論文参考訳（メタデータ） (2024-12-20T07:55:59Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文参考訳（メタデータ） (2023-05-24T15:45:35Z)
The challenge of redundancy on multi-agent value factorisation [12.63182277116319]
協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは集中型トレーニングと分散実行の利用である。そこで我々は,LRP(Layerwise Relevance propagation)を利用して,結合値関数の学習と局所報酬信号の生成を分離する手法を提案する。 VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。
論文参考訳（メタデータ） (2023-03-28T20:41:12Z)
Hierarchical Reinforcement Learning with Opponent Modeling for Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文参考訳（メタデータ） (2022-06-25T19:09:29Z)
Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文参考訳（メタデータ） (2022-05-25T08:35:00Z)
CTDS: Centralized Teacher with Decentralized Student for Multi-Agent Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文参考訳（メタデータ） (2022-03-16T06:03:14Z)
Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-16T16:47:00Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文参考訳（メタデータ） (2021-07-27T04:21:01Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。