論文の概要: Proxy Experience Replay: Federated Distillation for Distributed
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.06105v2
- Date: Fri, 15 May 2020 12:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 10:17:26.520315
- Title: Proxy Experience Replay: Federated Distillation for Distributed
Reinforcement Learning
- Title(参考訳): Proxy Experience Replay: 分散強化学習のためのフェデレート蒸留
- Authors: Han Cha, Jihong Park, Hyesung Kim, Mehdi Bennis, Seong-Lyun Kim
- Abstract要約: 本稿では,フェデレート強化蒸留(FRD)を用いた通信効率・プライバシ保護型分散深部強化学習フレームワークを提案する。
FRDでは、各エージェントがプロキシ体験再生メモリ(ProxRM)を交換し、実際の状態をクラスタリングするプロキシ状態に対してポリシーが局所的に平均化される。
本稿では、混合データ拡張アルゴリズムを用いて、PxRMを補間する混合データ拡張FRD(MixFRD)の改良版を提案する。
- 参考スコア(独自算出の注目度): 42.60692218829358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional distributed deep reinforcement learning (RL) commonly relies on
exchanging the experience replay memory (RM) of each agent. Since the RM
contains all state observations and action policy history, it may incur huge
communication overhead while violating the privacy of each agent.
Alternatively, this article presents a communication-efficient and
privacy-preserving distributed RL framework, coined federated reinforcement
distillation (FRD). In FRD, each agent exchanges its proxy experience replay
memory (ProxRM), in which policies are locally averaged with respect to proxy
states clustering actual states. To provide FRD design insights, we present
ablation studies on the impact of ProxRM structures, neural network
architectures, and communication intervals. Furthermore, we propose an improved
version of FRD, coined mixup augmented FRD (MixFRD), in which ProxRM is
interpolated using the mixup data augmentation algorithm. Simulations in a
Cartpole environment validate the effectiveness of MixFRD in reducing the
variance of mission completion time and communication cost, compared to the
benchmark schemes, vanilla FRD, federated reinforcement learning (FRL), and
policy distillation (PD).
- Abstract(参考訳): 従来の分散強化学習(RL)は、一般的に各エージェントの体験記憶(RM)の交換に依存している。
RMにはすべての状態観測と行動ポリシー履歴が含まれているため、各エージェントのプライバシーを侵害しながら大きな通信オーバーヘッドを発生させる可能性がある。
また, 通信効率とプライバシ保護を両立した分散RLフレームワークであるフェデレート強化蒸留(FRD)について述べる。
frdでは、それぞれのエージェントがプロキシエクスペリエンスリプレイメモリ(proxrm)を交換し、実際の状態をクラスタリングするプロキシ状態に関してポリシーをローカルに平均化する。
frd設計の知見を提供するため,我々はproxrm構造,ニューラルネットワークアーキテクチャ,通信間隔の影響についてアブレーション研究を行う。
さらに, この混合データ拡張アルゴリズムを用いて, ProxRMを補間する混合拡張FRD (MixFRD) を作成した改良型FRDを提案する。
カルトポール環境におけるシミュレーションは, ミッション完了時間と通信コストのばらつきを低減させるMixFRDの有効性を, ベンチマークスキーム, バニラFRD, フェデレーション強化学習(FRL), 政策蒸留(PD)と比較した。
関連論文リスト
- On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:42:43Z) - Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning [24.501511979962746]
オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的にデプロイするために、ますます重要視されている。
本稿では,拡散モデルを利用したオフラインMARLフレームワークであるQ-total lossによるEAQ, Episodes Augmentationを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:17:17Z) - Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。
本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。
また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文 参考訳(メタデータ) (2023-12-12T07:24:15Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Federated Learning under Covariate Shifts with Generalization Guarantees [46.56040078380132]
我々は、新しいグローバルモデルトレーニングパラダイムを策定し、フェデレート重要度重み付き経験的リスク最小化(FTW-ERM)を提案する。
FTW-ERMは、特定の設定下での古典的EMMよりも、より小さな一般化誤差を達成できることを示す。
論文 参考訳(メタデータ) (2023-06-08T16:18:08Z) - Learning Federated Visual Prompt in Null Space for MRI Reconstruction [83.71117888610547]
我々はMRI再建のためのグローバルプロンプトのヌル空間におけるフェデレートされた視覚的プロンプトを学習するための新しいアルゴリズムであるFedPRを提案する。
FedPRは、ローカルトレーニングデータの限られた量を与えられた場合、通信コストの6%で最先端のFLアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2023-03-28T17:46:16Z) - Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated
Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。
半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-12-03T03:27:51Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - Specificity-Preserving Federated Learning for MR Image Reconstruction [94.58912814426122]
統合学習は、磁気共鳴(MR)画像再構成におけるデータのプライバシーと効率を改善するために使用できる。
近年のFL技術は、グローバルモデルの一般化を強化することで、この問題を解決する傾向にある。
MR画像再構成のための特異性保存FLアルゴリズム(FedMRI)を提案する。
論文 参考訳(メタデータ) (2021-12-09T22:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。