論文の概要: Efficient Data Valuation Approximation in Federated Learning: A Sampling-based Approach
- arxiv url: http://arxiv.org/abs/2504.16668v1
- Date: Wed, 23 Apr 2025 12:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:27:18.155408
- Title: Efficient Data Valuation Approximation in Federated Learning: A Sampling-based Approach
- Title(参考訳): フェデレーション学習における効率的なデータ評価近似:サンプリングに基づくアプローチ
- Authors: Shuyue Wei, Yongxin Tong, Zimu Zhou, Tianran He, Yi Xu,
- Abstract要約: クロスサイロデータプロバイダは、データ値が十分に評価されない限り、高品質なデータセットを共有することをためらうことが多い。
シェープ値(SV)はその望ましい性質のため、FLにおけるデータ評価の標準指標として提唱されている。
本稿では,高インパクトデータセットの組み合わせを戦略的に選択する実用的な近似アルゴリズムIPSSを提案する。
- 参考スコア(独自算出の注目度): 26.75493602427444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated learning paradigm to utilize datasets across multiple data providers. In FL, cross-silo data providers often hesitate to share their high-quality dataset unless their data value can be fairly assessed. Shapley value (SV) has been advocated as the standard metric for data valuation in FL due to its desirable properties. However, the computational overhead of SV is prohibitive in practice, as it inherently requires training and evaluating an FL model across an exponential number of dataset combinations. Furthermore, existing solutions fail to achieve high accuracy and efficiency, making practical use of SV still out of reach, because they ignore choosing suitable computation scheme for approximation framework and overlook the property of utility function in FL. We first propose a unified stratified-sampling framework for two widely-used schemes. Then, we analyze and choose the more promising scheme under the FL linear regression assumption. After that, we identify a phenomenon termed key combinations, where only limited dataset combinations have a high-impact on final data value. Building on these insights, we propose a practical approximation algorithm, IPSS, which strategically selects high-impact dataset combinations rather than evaluating all possible combinations, thus substantially reducing time cost with minor approximation error. Furthermore, we conduct extensive evaluations on the FL benchmark datasets to demonstrate that our proposed algorithm outperforms a series of representative baselines in terms of efficiency and effectiveness.
- Abstract(参考訳): 複数のデータプロバイダにまたがるデータセットを利用するためのフェデレーション学習パラダイム。
FLでは、クロスサイロデータプロバイダは、データ値が適切に評価されない限り、高品質なデータセットを共有することをためらうことが多い。
シェープ値(SV)はその望ましい性質のため、FLにおけるデータ評価の標準指標として提唱されている。
しかし、SVの計算オーバーヘッドは、本質的には指数関数的な数のデータセットの組み合わせにわたるFLモデルのトレーニングと評価を必要とするため、実際には禁じられている。
さらに、既存のソリューションは高い精度と効率を達成することができず、近似フレームワークに適した計算手法を選ばず、FLのユーティリティ関数の性質を見落としているため、SVを実用的に利用できなくなっている。
まず,広く利用されている2つのスキームに対する統合成層サンプリングフレームワークを提案する。
そして、FL線形回帰仮定の下でより有望なスキームを解析し、選択する。
その後、限られたデータセットの組み合わせだけが最終的なデータ値に高い影響を持つ、キーの組み合わせと呼ばれる現象を特定します。
これらの知見に基づいて,可能な組み合わせを全て評価するのではなく,高インパクトデータセットの組み合わせを戦略的に選択する実用的な近似アルゴリズムIPSSを提案する。
さらに,FLベンチマークのデータセットを広範囲に評価することにより,提案アルゴリズムが効率と有効性の観点から,一連の代表的ベースラインより優れていることを示す。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation [37.77454972709646]
学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。
我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
論文 参考訳(メタデータ) (2025-02-03T22:30:06Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - Data Valuation and Detections in Federated Learning [4.899818550820576]
フェデレートラーニング(FL)は、生データのプライバシーを維持しながら協調的なモデルトレーニングを可能にする。
このフレームワークの課題は、データの公平かつ効率的な評価であり、FLタスクで高品質なデータを提供するためにクライアントにインセンティブを与えるのに不可欠である。
本稿では,FLタスクにおける事前学習アルゴリズムを使わずに,クライアントのコントリビューションを評価し,関連するデータセットを選択するための新たなプライバシ保護手法を提案する。
論文 参考訳(メタデータ) (2023-11-09T12:01:32Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - A Dataset Fusion Algorithm for Generalised Anomaly Detection in
Homogeneous Periodic Time Series Datasets [0.0]
データセットフュージョン(Dataset Fusion)とは、複数の同種データセットからの周期的な信号を単一のデータセットに融合するアルゴリズムである。
提案手法は,平均F1スコア0.879で従来の訓練方法よりも有意に優れていた。
その結果、トレーニングデータの6.25%しか使用せず、計算能力の93.7%削減に換算すると、パフォーマンスは4.04%低下することがわかった。
論文 参考訳(メタデータ) (2023-05-14T16:24:09Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。