論文の概要: DAVED: Data Acquisition via Experimental Design for Data Markets
- arxiv url: http://arxiv.org/abs/2403.13893v2
- Date: Sat, 28 Sep 2024 14:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:23.617297
- Title: DAVED: Data Acquisition via Experimental Design for Data Markets
- Title(参考訳): DAVED: データ市場のための実験設計によるデータ獲得
- Authors: Charles Lu, Baihe Huang, Sai Praneeth Karimireddy, Praneeth Vepakomma, Michael Jordan, Ramesh Raskar,
- Abstract要約: 本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
- 参考スコア(独自算出の注目度): 25.300193837833426
- License:
- Abstract: The acquisition of training data is crucial for machine learning applications. Data markets can increase the supply of data, particularly in data-scarce domains such as healthcare, by incentivizing potential data providers to join the market. A major challenge for a data buyer in such a market is choosing the most valuable data points from a data seller. Unlike prior work in data valuation, which assumes centralized data access, we propose a federated approach to the data acquisition problem that is inspired by linear experimental design. Our proposed data acquisition method achieves lower prediction error without requiring labeled validation data and can be optimized in a fast and federated procedure. The key insight of our work is that a method that directly estimates the benefit of acquiring data for test set prediction is particularly compatible with a decentralized market setting.
- Abstract(参考訳): トレーニングデータの取得は、機械学習アプリケーションにとって不可欠である。
データ市場は、特に医療などのデータ不足領域において、潜在的なデータプロバイダを市場に参加させるインセンティブを与えることで、データの供給を増やすことができる。
このような市場におけるデータ買い手にとっての大きな課題は、データ売り手から最も価値のあるデータポイントを選択することだ。
集中型データアクセスを前提とするデータバリュエーションの先行研究とは違って,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低減し,高速かつフェデレートな手順で最適化することができる。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
関連論文リスト
- Data Measurements for Decentralized Data Markets [18.99870296998749]
分散データ市場は、機械学習のためのより公平なデータ取得を提供することができる。
我々は、データ購入者が関連する多様なデータセットを持つ売り手を見つけることができるように、フェデレートされたデータ測定をベンチマークして提案する。
論文 参考訳(メタデータ) (2024-06-06T17:03:51Z) - A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Addressing Budget Allocation and Revenue Allocation in Data Market
Environments Using an Adaptive Sampling Algorithm [14.206050847214652]
本稿では,予算配分と収益配分を同時に線形時間で解く新しいアルゴリズムを提案する。
新しいアルゴリズムでは、モデルに最も貢献しているプロバイダからデータを選択するアダプティブサンプリングプロセスを採用している。
予算を効率的に利用し,収益配分特性がShapleyに類似していることを示すアルゴリズムを理論的に保証する。
論文 参考訳(メタデータ) (2023-06-05T02:28:19Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Fundamentals of Task-Agnostic Data Valuation [21.78555506720078]
データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。
検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
論文 参考訳(メタデータ) (2022-08-25T22:07:07Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z) - Data Appraisal Without Data Sharing [28.41079503636652]
セキュアなマルチパーティ計算によるデータ共有を必要としない手法を開発した。
実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-11T15:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。