論文の概要: Fundamentals of Task-Agnostic Data Valuation
- arxiv url: http://arxiv.org/abs/2208.12354v1
- Date: Thu, 25 Aug 2022 22:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:24:56.673946
- Title: Fundamentals of Task-Agnostic Data Valuation
- Title(参考訳): タスク非依存データ評価の基礎
- Authors: Mohammad Mohammadi Amiri, Frederic Berdoz, Ramesh Raskar
- Abstract要約: データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。
検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
- 参考スコア(独自算出の注目度): 21.78555506720078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study valuing the data of a data owner/seller for a data seeker/buyer.
Data valuation is often carried out for a specific task assuming a particular
utility metric, such as test accuracy on a validation set, that may not exist
in practice. In this work, we focus on task-agnostic data valuation without any
validation requirements. The data buyer has access to a limited amount of data
(which could be publicly available) and seeks more data samples from a data
seller. We formulate the problem as estimating the differences in the
statistical properties of the data at the seller with respect to the baseline
data available at the buyer. We capture these statistical differences through
second moment by measuring diversity and relevance of the seller's data for the
buyer; we estimate these measures through queries to the seller without
requesting raw data. We design the queries with the proposed approach so that
the seller is blind to the buyer's raw data and has no knowledge to fabricate
responses to queries to obtain a desired outcome of the diversity and relevance
trade-off.We will show through extensive experiments on real tabular and image
datasets that the proposed estimates capture the diversity and relevance of the
seller's data for the buyer.
- Abstract(参考訳): データ検索/購入者のためのデータ所有者/販売者のデータを評価する。
データ評価は、検証セットにおけるテストの精度など、実際に存在しないような特定のユーティリティメトリックを仮定する特定のタスクに対して実行されることが多い。
本研究では,検証の必要なく,タスクに依存しないデータ評価に焦点を当てる。
データバイヤーは限られた量のデータ(公開可能)にアクセスでき、データ販売者からより多くのデータサンプルを求める。
本稿では,購入者が利用可能なベースラインデータに関して,販売者におけるデータの統計特性の違いを推定するものとして,問題を定式化する。
購入者に対する販売者のデータの多様性と妥当性を計測し、第2の瞬間を通じてこれらの統計的な差異を把握し、生データを要求せずに販売者への問い合わせを通じてこれらの尺度を推定する。
提案手法を用いて, 販売者が購入者の生データに盲目であり, 多様性と関連性のトレードオフの望ましい結果を得るために, 問い合わせに対する応答を作成する知識を持たないクエリの設計を行い, 提案手法が購入者のデータの多様性と妥当性を捉えた実表と画像データセットの広範な実験を通して示す。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Data Measurements for Decentralized Data Markets [18.99870296998749]
分散データ市場は、機械学習のためのより公平なデータ取得を提供することができる。
我々は、データ購入者が関連する多様なデータセットを持つ売り手を見つけることができるように、フェデレートされたデータ測定をベンチマークして提案する。
論文 参考訳(メタデータ) (2024-06-06T17:03:51Z) - Preventive Audits for Data Applications Before Data Sharing in the Power IoT [4.899053698192078]
データ所有者は、データ共有の前にデータアプリケーションの予防監査を行う必要がある。
IoTのパワーにおけるデータ共有は、背景と見なされる。
予防監査は、データ共有前後のデータ特徴パラメータの変更に基づいて実施されるべきである。
論文 参考訳(メタデータ) (2024-05-05T15:07:56Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - A Survey of Data Pricing for Data Marketplaces [77.3189288320768]
本稿では,既存のデータ価格研究の現状を概観する。
我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。
論文 参考訳(メタデータ) (2023-03-07T04:35:56Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。