Fugu-MT 論文翻訳(概要): DAVED: Data Acquisition via Experimental Design for Data Markets

論文の概要: DAVED: Data Acquisition via Experimental Design for Data Markets

arxiv url: http://arxiv.org/abs/2403.13893v2
Date: Sat, 28 Sep 2024 14:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 22:28:13.081665
Title: DAVED: Data Acquisition via Experimental Design for Data Markets
Title（参考訳）: DAVED: データ市場のための実験設計によるデータ獲得
Authors: Charles Lu, Baihe Huang, Sai Praneeth Karimireddy, Praneeth Vepakomma, Michael Jordan, Ramesh Raskar,
Abstract要約: 本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
参考スコア（独自算出の注目度）: 25.300193837833426
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The acquisition of training data is crucial for machine learning applications. Data markets can increase the supply of data, particularly in data-scarce domains such as healthcare, by incentivizing potential data providers to join the market. A major challenge for a data buyer in such a market is choosing the most valuable data points from a data seller. Unlike prior work in data valuation, which assumes centralized data access, we propose a federated approach to the data acquisition problem that is inspired by linear experimental design. Our proposed data acquisition method achieves lower prediction error without requiring labeled validation data and can be optimized in a fast and federated procedure. The key insight of our work is that a method that directly estimates the benefit of acquiring data for test set prediction is particularly compatible with a decentralized market setting.
Abstract（参考訳）: トレーニングデータの取得は、機械学習アプリケーションにとって不可欠である。データ市場は、特に医療などのデータ不足領域において、潜在的なデータプロバイダを市場に参加させるインセンティブを与えることで、データの供給を増やすことができる。このような市場におけるデータ買い手にとっての大きな課題は、データ売り手から最も価値のあるデータポイントを選択することだ。集中型データアクセスを前提とするデータバリュエーションの先行研究とは違って,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートアプローチを提案する。提案手法はラベル付き検証データを必要とせずに予測誤差を低減し,高速かつフェデレートな手順で最適化することができる。我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。

関連論文リスト

Data Valuation and Selection in a Federated Model Marketplace [28.369108318258753]
本稿では、フェデレートラーニング(FL)に適したワッサーシュタインに基づく推定器を中心にした包括的フレームワークを提案する。プライバシを確保するために、生データへのアクセスを必要とせず、ワッサースタイン距離を近似する分散手法を提案する。我々のアプローチは、高いパフォーマンスデータの組み合わせを一貫して特定し、より信頼性の高いFLベースのモデルマーケットプレースへの道を開く。
論文参考訳（メタデータ） (2025-09-09T06:45:30Z)
A Survey on Data Markets [73.07800441775814]
より大きな福祉のためのトレーディングデータの増加は、データ市場の台頭につながっている。データ市場とは、データセットやデータデリバティブを含むデータプロダクトの交換が行われるメカニズムである。これは、価格やデータの分散など、いくつかの機能が相互作用するコーディネートメカニズムとして機能する。
論文参考訳（メタデータ） (2024-11-09T15:09:24Z)
Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。 PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文参考訳（メタデータ） (2024-11-01T17:13:14Z)
Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文参考訳（メタデータ） (2024-10-06T07:56:53Z)
Data Measurements for Decentralized Data Markets [18.99870296998749]
分散データ市場は、機械学習のためのより公平なデータ取得を提供することができる。我々は、データ購入者が関連する多様なデータセットを持つ売り手を見つけることができるように、フェデレートされたデータ測定をベンチマークして提案する。
論文参考訳（メタデータ） (2024-06-06T17:03:51Z)
Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-22T22:15:17Z)
Addressing Budget Allocation and Revenue Allocation in Data Market Environments Using an Adaptive Sampling Algorithm [14.206050847214652]
本稿では,予算配分と収益配分を同時に線形時間で解く新しいアルゴリズムを提案する。新しいアルゴリズムでは、モデルに最も貢献しているプロバイダからデータを選択するアダプティブサンプリングプロセスを採用している。予算を効率的に利用し,収益配分特性がShapleyに類似していることを示すアルゴリズムを理論的に保証する。
論文参考訳（メタデータ） (2023-06-05T02:28:19Z)
Rethinking Data Heterogeneity in Federated Learning: Introducing a New Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。私たちの観察は直感的である。私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文参考訳（メタデータ） (2022-09-30T17:15:19Z)
Fundamentals of Task-Agnostic Data Valuation [21.78555506720078]
データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
論文参考訳（メタデータ） (2022-08-25T22:07:07Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。