論文の概要: Data Valuation and Selection in a Federated Model Marketplace
- arxiv url: http://arxiv.org/abs/2509.18104v1
- Date: Tue, 09 Sep 2025 06:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.356848
- Title: Data Valuation and Selection in a Federated Model Marketplace
- Title(参考訳): フェデレーションモデルマーケットプレースにおけるデータ評価と選択
- Authors: Wenqian Li, Youjia Yang, Ruoxi Jia, Yan Pang,
- Abstract要約: 本稿では、フェデレートラーニング(FL)に適したワッサーシュタインに基づく推定器を中心にした包括的フレームワークを提案する。
プライバシを確保するために、生データへのアクセスを必要とせず、ワッサースタイン距離を近似する分散手法を提案する。
我々のアプローチは、高いパフォーマンスデータの組み合わせを一貫して特定し、より信頼性の高いFLベースのモデルマーケットプレースへの道を開く。
- 参考スコア(独自算出の注目度): 28.369108318258753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of Artificial Intelligence (AI), marketplaces have become essential platforms for facilitating the exchange of data products to foster data sharing. Model transactions provide economic solutions in data marketplaces that enhance data reusability and ensure the traceability of data ownership. To establish trustworthy data marketplaces, Federated Learning (FL) has emerged as a promising paradigm to enable collaborative learning across siloed datasets while safeguarding data privacy. However, effective data valuation and selection from heterogeneous sources in the FL setup remain key challenges. This paper introduces a comprehensive framework centered on a Wasserstein-based estimator tailored for FL. The estimator not only predicts model performance across unseen data combinations but also reveals the compatibility between data heterogeneity and FL aggregation algorithms. To ensure privacy, we propose a distributed method to approximate Wasserstein distance without requiring access to raw data. Furthermore, we demonstrate that model performance can be reliably extrapolated under the neural scaling law, enabling effective data selection without full-scale training. Extensive experiments across diverse scenarios, such as label skew, mislabeled, and unlabeled sources, show that our approach consistently identifies high-performing data combinations, paving the way for more reliable FL-based model marketplaces.
- Abstract(参考訳): 人工知能(AI)の時代、市場はデータ共有を促進するためにデータプロダクトの交換を促進するために欠かせないプラットフォームになっている。
モデルトランザクションは、データの再利用性を高め、データの所有のトレーサビリティを保証する、データマーケットプレースにおける経済的なソリューションを提供する。
信頼できるデータマーケットプレースを確立するために、フェデレートラーニング(FL)は、データプライバシを保護しながら、サイロ化されたデータセット間の協調学習を可能にする、有望なパラダイムとして登場した。
しかし、FLセットアップにおける効果的なデータ評価と異種ソースの選択は、依然として重要な課題である。
本稿では,FL に適した Wasserstein ベースの推定器を中心にした包括的フレームワークを提案する。
この推定器は、目に見えないデータの組み合わせでモデル性能を予測するだけでなく、データの不均一性とFL集約アルゴリズムとの互換性も明らかにする。
プライバシを確保するために、生データへのアクセスを必要とせず、ワッサースタイン距離を近似する分散手法を提案する。
さらに,ニューラルスケーリング法則の下でモデル性能を確実に外挿できることを示す。
ラベルスキュー、ラベル付き、ラベル付けされていないソースなど、さまざまなシナリオにわたる広範な実験により、我々のアプローチは、高いパフォーマンスデータの組み合わせを一貫して識別し、より信頼性の高いFLベースのモデルマーケットプレースへの道を開くことを示しています。
関連論文リスト
- Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - Federated Loss Exploration for Improved Convergence on Non-IID Data [20.979550470097823]
Federated Loss Exploration (FedLEx)は、これらの課題に対処するために特別に設計された革新的なアプローチである。
FedLExは、既存のFLメソッドの非IID設定における欠点に特化している。
最先端のFLアルゴリズムによる実験により,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-06-23T13:42:07Z) - FedMAP: Unlocking Potential in Personalized Federated Learning through Bi-Level MAP Optimization [11.040916982022978]
フェデレートラーニング(FL)は、分散データに基づく機械学習モデルの協調トレーニングを可能にする。
クライアント間でのデータはしばしば、クラス不均衡、特徴分散スキュー、サンプルサイズ不均衡、その他の現象によって大きく異なる。
本稿では,バイレベル最適化を用いた新しいベイズPFLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T11:28:06Z) - Stable Diffusion-based Data Augmentation for Federated Learning with Non-IID Data [9.045647166114916]
フェデレートラーニング(FL)は、分散的かつ協調的なモデルトレーニングのための有望なパラダイムである。
FLは、非独立分散(Non-IID)データ分散に直面すると、パフォーマンスの大幅な低下と収束性の低下に悩まされる。
我々は、最先端のテキスト・ツー・イメージ基盤モデルの強力な能力を活用する新しいアプローチであるGen-FedSDを紹介する。
論文 参考訳(メタデータ) (2024-05-13T16:57:48Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - FLASH: Federated Learning Across Simultaneous Heterogeneities [55.0981921695672]
FLASH (Federated Learning Across Simultaneous Heterogeneities) は軽量かつ柔軟なクライアント選択アルゴリズムである。
ヘテロジニティの幅広い情報源の下で、最先端のFLフレームワークよりも優れています。
最先端のベースラインよりも大幅に、一貫性のある改善を実現している。
論文 参考訳(メタデータ) (2024-02-13T20:04:39Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。