論文の概要: FedHPD: Heterogeneous Federated Reinforcement Learning via Policy Distillation
- arxiv url: http://arxiv.org/abs/2502.00870v1
- Date: Sun, 02 Feb 2025 18:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:23.098583
- Title: FedHPD: Heterogeneous Federated Reinforcement Learning via Policy Distillation
- Title(参考訳): FedHPD:政策蒸留による不均一な連邦強化学習
- Authors: Wenzheng Jiang, Ji Wang, Xiongtao Zhang, Weidong Bao, Cheston Tan, Flint Xiaofeng Fan,
- Abstract要約: 異種エージェントを用いたブラックボックス設定におけるフェデレーション強化学習(FedRL)について検討する。
FedHPDは、様々な強化学習ベンチマークタスクで大幅に改善されている。
- 参考スコア(独自算出の注目度): 9.705155801292953
- License:
- Abstract: Federated Reinforcement Learning (FedRL) improves sample efficiency while preserving privacy; however, most existing studies assume homogeneous agents, limiting its applicability in real-world scenarios. This paper investigates FedRL in black-box settings with heterogeneous agents, where each agent employs distinct policy networks and training configurations without disclosing their internal details. Knowledge Distillation (KD) is a promising method for facilitating knowledge sharing among heterogeneous models, but it faces challenges related to the scarcity of public datasets and limitations in knowledge representation when applied to FedRL. To address these challenges, we propose Federated Heterogeneous Policy Distillation (FedHPD), which solves the problem of heterogeneous FedRL by utilizing action probability distributions as a medium for knowledge sharing. We provide a theoretical analysis of FedHPD's convergence under standard assumptions. Extensive experiments corroborate that FedHPD shows significant improvements across various reinforcement learning benchmark tasks, further validating our theoretical findings. Moreover, additional experiments demonstrate that FedHPD operates effectively without the need for an elaborate selection of public datasets.
- Abstract(参考訳): フェデレーション強化学習(Federated Reinforcement Learning, FedRL)は、プライバシを保ちながらサンプル効率を向上させるが、既存のほとんどの研究では、同質のエージェントを仮定し、現実世界のシナリオにおける適用性を制限している。
本稿では,異種エージェントを用いたブラックボックス設定におけるFedRLについて検討する。
知識蒸留(KD)は、異種モデル間の知識共有を促進するための有望な方法であるが、FedRLに適用した場合、公開データセットの不足と知識表現の制限に関連する課題に直面している。
これらの課題に対処するために,フェデレート不均質な政策蒸留(FedHPD)を提案する。
我々は標準仮定の下でFedHPDの収束の理論解析を行う。
FedHPDは様々な強化学習ベンチマークタスクにおいて大幅な改善が見られ、さらに理論的な結果が検証された。
さらに、FedHPDが公共データセットの精巧な選択を必要とせずに効果的に動作することを示す実験も加わった。
関連論文リスト
- Exploratory Diffusion Policy for Unsupervised Reinforcement Learning [28.413426177336703]
教師なし強化学習は、報酬のない環境で国家や技術を探究することで、エージェントを事前訓練することを目的としている。
既存の方法は、事前訓練されたポリシーの適合性を見落とし、不均一な事前訓練データを扱うのに苦労することが多い。
本研究では,拡散モデルの強い表現能力を利用して探索データに適合する探索拡散政策(EDP)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Efficient Conformal Prediction under Data Heterogeneity [79.35418041861327]
コンフォーマル予測(CP)は不確実性定量化のための頑健な枠組みである。
非交換性に対処するための既存のアプローチは、最も単純な例を超えて計算不可能なメソッドにつながる。
この研究は、比較的一般的な非交換可能なデータ分布に対して証明可能な信頼セットを生成する、CPに新しい効率的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-12-25T20:02:51Z) - Multiply Robust Federated Estimation of Targeted Average Treatment
Effects [0.0]
多地点データを用いて,対象個体群に対する有効な因果推論を導出する手法を提案する。
提案手法では,移動学習を組み込んでアンサンブル重みを推定し,ソースサイトからの情報を組み合わせる。
論文 参考訳(メタデータ) (2023-09-22T03:15:08Z) - Selective Knowledge Sharing for Privacy-Preserving Federated
Distillation without A Good Teacher [52.2926020848095]
フェデレーション学習は、ホワイトボックス攻撃に脆弱で、異種クライアントへの適応に苦慮している。
本稿では,選択的FD(Selective-FD)と呼ばれるFDのための選択的知識共有機構を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:04:19Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - FedHQL: Federated Heterogeneous Q-Learning [32.01715758422344]
フェデレート強化学習(Federated Reinforcement Learning, FedRL)は、分散エージェントが互いに経験から集合的に学び、生の軌跡を交換することなく、パフォーマンスを改善することを奨励する。
現実世界のアプリケーションでは、エージェントはアーキテクチャとパラメータに異を唱えることが多い。
本稿では,これらの課題に主に対処するFederated Heterogeneous Q-Learning(FedHQL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T14:39:34Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Fault-Tolerant Federated Reinforcement Learning with Theoretical
Guarantee [25.555844784263236]
本稿では,ランダムなシステム障害や敵攻撃によるエージェントの半数未満に寛容な,最初のフェデレーション強化学習フレームワークを提案する。
すべての理論的結果は、様々なRLベンチマークタスクで実証的に検証される。
論文 参考訳(メタデータ) (2021-10-26T23:01:22Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。