論文の概要: Data Acquisition via Experimental Design for Decentralized Data Markets
- arxiv url: http://arxiv.org/abs/2403.13893v1
- Date: Wed, 20 Mar 2024 18:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:09:15.079939
- Title: Data Acquisition via Experimental Design for Decentralized Data Markets
- Title(参考訳): 分散データ市場のための実験設計によるデータ獲得
- Authors: Charles Lu, Baihe Huang, Sai Praneeth Karimireddy, Praneeth Vepakomma, Michael Jordan, Ramesh Raskar,
- Abstract要約: データ市場は、特に医療などのデータ不足領域において、データの供給を増やす手段を提供する。
このような市場におけるデータ買い手にとっての大きな課題は、データ売り手から最も価値のあるデータポイントを選択することだ。
本稿では,線形実験設計にインスパイアされたデータ選択問題に対するフェデレートされたアプローチを提案する。
- 参考スコア(独自算出の注目度): 25.300193837833426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acquiring high-quality training data is essential for current machine learning models. Data markets provide a way to increase the supply of data, particularly in data-scarce domains such as healthcare, by incentivizing potential data sellers to join the market. A major challenge for a data buyer in such a market is selecting the most valuable data points from a data seller. Unlike prior work in data valuation, which assumes centralized data access, we propose a federated approach to the data selection problem that is inspired by linear experimental design. Our proposed data selection method achieves lower prediction error without requiring labeled validation data and can be optimized in a fast and federated procedure. The key insight of our work is that a method that directly estimates the benefit of acquiring data for test set prediction is particularly compatible with a decentralized market setting.
- Abstract(参考訳): 現在の機械学習モデルでは、高品質なトレーニングデータを取得することが不可欠だ。
データ市場は、特に医療などのデータ共有分野において、潜在的なデータ販売者への市場への参加を促すことによって、データの供給を増やす手段を提供する。
このような市場におけるデータ買い手にとっての大きな課題は、データ売り手から最も価値のあるデータポイントを選択することだ。
集中型データアクセスを前提とするデータ評価の先行研究とは異なり,線形実験設計にインスパイアされたデータ選択問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低減し,高速かつフェデレートな手法で最適化することができる。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
関連論文リスト
- A Survey on Data Markets [73.07800441775814]
より大きな福祉のためのトレーディングデータの増加は、データ市場の台頭につながっている。
データ市場とは、データセットやデータデリバティブを含むデータプロダクトの交換が行われるメカニズムである。
これは、価格やデータの分散など、いくつかの機能が相互作用するコーディネートメカニズムとして機能する。
論文 参考訳(メタデータ) (2024-11-09T15:09:24Z) - Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Data Measurements for Decentralized Data Markets [18.99870296998749]
分散データ市場は、機械学習のためのより公平なデータ取得を提供することができる。
我々は、データ購入者が関連する多様なデータセットを持つ売り手を見つけることができるように、フェデレートされたデータ測定をベンチマークして提案する。
論文 参考訳(メタデータ) (2024-06-06T17:03:51Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Addressing Budget Allocation and Revenue Allocation in Data Market
Environments Using an Adaptive Sampling Algorithm [14.206050847214652]
本稿では,予算配分と収益配分を同時に線形時間で解く新しいアルゴリズムを提案する。
新しいアルゴリズムでは、モデルに最も貢献しているプロバイダからデータを選択するアダプティブサンプリングプロセスを採用している。
予算を効率的に利用し,収益配分特性がShapleyに類似していることを示すアルゴリズムを理論的に保証する。
論文 参考訳(メタデータ) (2023-06-05T02:28:19Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Fundamentals of Task-Agnostic Data Valuation [21.78555506720078]
データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。
検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
論文 参考訳(メタデータ) (2022-08-25T22:07:07Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。