論文の概要: Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity
- arxiv url: http://arxiv.org/abs/2605.27385v1
- Date: Fri, 10 Apr 2026 19:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.515573
- Title: Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity
- Title(参考訳): 不均一なシミュレーション環境におけるフェデレーション強化学習のためのパーソナライズされた観察正規化
- Authors: Yiran Pang, Zhen Ni, Xiangnan Zhong,
- Abstract要約: フェデレート強化学習(FedRL)は、複数のエージェントが生データを共有せずに協調的にグローバルなポリシーを訓練することを可能にする。
FedRLは、状態遷移のダイナミクスが異なる不均一な環境において、非同一の入力分布につながる課題に直面している。
本稿では,各エージェントが生の状態入力を局所的に正規化できるように,パーソナライズされた観察正規化法(PON)を提案する。
- 参考スコア(独自算出の注目度): 4.98310859187348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated reinforcement learning (FedRL) enables multiple agents to collaboratively train a global policy without sharing raw data, making it ideal for privacy-sensitive applications. However, FedRL faces challenges in heterogeneous environments where differing state-transition dynamics lead to non-identical input distributions and imbalanced parameter updates during aggregation. Therefore, this paper develops a personalized observation normalization (PON) method, allowing each agent to locally normalize raw state inputs using a continuously updated running mean and variance. This design ensures consistent scaling of local feature without overshadowing across agents during aggregation. Furthermore, we demonstrate that sharing normalization parameters across agents is ineffective due to the diverse local input distributions, which highlights the necessity of personalized statistics. Experiments on heterogeneous MuJoCo tasks show that our developed PON accelerates training and achieves superior performance compared to baseline methods.
- Abstract(参考訳): フェデレーション強化学習(FedRL)は、複数のエージェントが生データを共有せずにグローバルポリシーを協調的にトレーニングし、プライバシに敏感なアプリケーションに最適である。
しかし、FedRLは、状態遷移のダイナミクスが異なる異種環境において、アグリゲーション中の非同一の入力分布と不均衡なパラメータ更新につながる課題に直面している。
そこで本研究では,各エージェントが連続的に更新されたランニング平均と分散を用いて,生の状態入力を局所的に正規化することができるPON法を開発した。
この設計は、集約中にエージェントをオーバーシェーディングすることなく、ローカル機能の一貫性のあるスケーリングを保証する。
さらに、エージェント間で正規化パラメータを共有することは、パーソナライズされた統計情報の必要性を強調する多様な局所的な入力分布のため、効果がないことを示す。
ヘテロジニアスな MuJoCo タスクの実験により,PON がトレーニングを加速し,ベースライン法に比べて優れた性能を発揮することが示された。
関連論文リスト
- SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Local Performance vs. Out-of-Distribution Generalization: An Empirical Analysis of Personalized Federated Learning in Heterogeneous Data Environments [3.186130813218338]
本研究は,その局所的性能と一般化能力の両方を包含して,フェデレートラーニングアプローチを徹底的に評価することを含む。
本稿では、FLIU (Federated Learning with individualized Updates) に指定されたFedAvgの修正手法を提案し、適応的パーソナライゼーション係数でアルゴリズムをパーソナライゼーションステップで拡張する。
論文 参考訳(メタデータ) (2025-10-28T15:15:14Z) - Personalized federated prototype learning in mixed heterogeneous data scenarios [8.36422671527418]
フェデレーション学習は、顧客のプライバシを同時に保護し、複数のデバイスからの分散データをモデルトレーニングに活用する能力において、大きな注目を集めている。
混合異種シナリオにおけるPFPLと呼ばれる新しい手法を提案する。
この方法は、各クライアントに対してパーソナライズされた非バイアスのプロトタイプを構築することによって、よりリッチなドメイン知識と非バイアスの収束ターゲットを提供する。
論文 参考訳(メタデータ) (2025-10-04T08:08:32Z) - Client Contribution Normalization for Enhanced Federated Learning [4.726250115737579]
スマートフォンやラップトップを含むモバイルデバイスは、分散化された異種データを生成する。
フェデレートラーニング(FL)は、データ共有のない分散デバイス間でグローバルモデルの協調トレーニングを可能にすることで、有望な代替手段を提供する。
本稿では、FLにおけるデータ依存的不均一性に着目し、局所的に訓練されたモデルから抽出された平均潜在表現を活用する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-10T04:03:09Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - FedAgg: Adaptive Federated Learning with Aggregated Gradients [1.5653612447564105]
我々はFedAggと呼ばれる適応型FEDerated Learningアルゴリズムを提案し、局所モデルパラメータと平均モデルパラメータのばらつきを緩和し、高速モデル収束率を得る。
IIDおよび非IIDデータセット下でのモデル性能の向上と収束速度の促進を目的として,本手法が既存のFL戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-28T08:07:28Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。