論文の概要: FedPS: Federated data Preprocessing via aggregated Statistics
- arxiv url: http://arxiv.org/abs/2602.10870v1
- Date: Wed, 11 Feb 2026 13:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.960378
- Title: FedPS: Federated data Preprocessing via aggregated Statistics
- Title(参考訳): FedPS: 集計統計によるフェデレーションデータ前処理
- Authors: Xuefeng Xu, Graham Cormode,
- Abstract要約: フェデレートラーニング(FL)は、複数のパーティが生データを共有せずに機械学習モデルを協調的にトレーニングすることを可能にする。
この前処理段階はモデル性能には重要であるが、FL研究では概ね見過ごされている。
集約統計に基づくフェデレーションデータ前処理のための統合フレームワークであるFedPSを紹介する。
- 参考スコア(独自算出の注目度): 8.64427265159929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.
- Abstract(参考訳): フェデレートラーニング(FL)は、複数のパーティが生データを共有せずに機械学習モデルを協調的にトレーニングすることを可能にする。
しかし、トレーニングの前には、欠落した値、一貫性のないフォーマット、不均一な機能スケールに対処するために、データは事前処理されなければならない。
この前処理段階はモデルの性能には重要であるが、FL研究ではほとんど見落とされている。
実際のFLシステムでは、プライバシ制約は生データの集中化を禁止し、通信効率は分散前処理のさらなる課題をもたらす。
集約統計に基づくフェデレーションデータ前処理のための統合フレームワークであるFedPSを紹介する。
FedPSはデータスケッチ技術を活用して、重要な統計情報を保持しながら、ローカルデータセットを効率的に要約する。
これらの要約に基づいて、特徴スケーリング、符号化、離散化、欠落値計算のためのフェデレーションアルゴリズムを設計し、k-Means、k-Nearest Neighbors、Bayesian Linear Regressionといった前処理関連モデルを水平および垂直両方のFL設定に拡張する。
FedPSは、実用的なFLデプロイメントのための柔軟性、通信効率、一貫性のある前処理パイプラインを提供する。
関連論文リスト
- A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - StatAvg: Mitigating Data Heterogeneity in Federated Learning for Intrusion Detection Systems [22.259297167311964]
フェデレートラーニング(FL)は、デバイスが生データを第三者に公開することなく、共同で機械学習(ML)またはディープラーニング(DL)モデルを構築することができる分散学習技術である。
プライバシー保護の性質から、FLはサイバーセキュリティの領域内で侵入検知システム(IDS)を構築するために広く注目を集めている。
FLにおけるローカルクライアントのデータ間で,非独立かつ同一の(非ID)分散機能を緩和する,統計的平均化(StatAvg)と呼ばれる有効な手法を提案する。
論文 参考訳(メタデータ) (2024-05-20T14:41:59Z) - An Aggregation-Free Federated Learning for Tackling Data Heterogeneity [50.44021981013037]
フェデレートラーニング(FL)は、分散データセットからの知識を活用する効果に頼っている。
従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。
我々は,新しいアグリゲーションフリーFLアルゴリズムであるFedAFを紹介する。
論文 参考訳(メタデータ) (2024-04-29T05:55:23Z) - Tackling Intertwined Data and Device Heterogeneities in Federated Learning with Unlimited Staleness [4.9851737525099225]
フェデレートラーニングは、クライアントの異なるローカルデータ分散と、モデルの更新をアップロードする際のレイテンシに起因する、データとデバイスの不均一性によって影響を受ける可能性がある。
本稿では,この変換の精度と計算効率を保証する新しいFLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:19:40Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Benchmarking FedAvg and FedCurv for Image Classification Tasks [1.376408511310322]
本稿では,同じフェデレーションネットワークにおけるデータの統計的不均一性の問題に焦点をあてる。
FedAvg、FedProx、Federated Curvature(FedCurv)など、いくつかのフェデレートラーニングアルゴリズムがすでに提案されている。
この研究の副産物として、FLコミュニティからのさらなる比較を容易にするために使用したデータセットの非IIDバージョンをリリースします。
論文 参考訳(メタデータ) (2023-03-31T10:13:01Z) - Over-the-Air Federated Learning from Heterogeneous Data [107.05618009955094]
フェデレートラーニング(Federated Learning、FL)は、集中型モデルの分散ラーニングのためのフレームワークである。
我々は,共通局所勾配勾配勾配(SGD)FLアルゴリズムを強化するコンバージェント OTA FL (COTAF) アルゴリズムを開発した。
我々は,COTAFにより誘導されるプリコーディングが,OTA FLを用いて訓練されたモデルの収束率と精度を顕著に向上させることを示す。
論文 参考訳(メタデータ) (2020-09-27T08:28:25Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。