論文の概要: Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace
- arxiv url: http://arxiv.org/abs/2411.00745v1
- Date: Fri, 01 Nov 2024 17:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:41.400609
- Title: Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace
- Title(参考訳): データマーケットプレースのためのプライベート,拡張ロバスト,タスク非依存データバリュエーションアプローチ
- Authors: Tayyebeh Jahani-Nezhad, Parsa Moradi, Mohammad Ali Maddah-Ali, Giuseppe Caire,
- Abstract要約: PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
- 参考スコア(独自算出の注目度): 56.78396861508909
- License:
- Abstract: Evaluating datasets in data marketplaces, where the buyer aim to purchase valuable data, is a critical challenge. In this paper, we introduce an innovative task-agnostic data valuation method called PriArTa which is an approach for computing the distance between the distribution of the buyer's existing dataset and the seller's dataset, allowing the buyer to determine how effectively the new data can enhance its dataset. PriArTa is communication-efficient, enabling the buyer to evaluate datasets without needing access to the entire dataset from each seller. Instead, the buyer requests that sellers perform specific preprocessing on their data and then send back the results. Using this information and a scoring metric, the buyer can evaluate the dataset. The preprocessing is designed to allow the buyer to compute the score while preserving the privacy of each seller's dataset, mitigating the risk of information leakage before the purchase. A key feature of PriArTa is its robustness to common data transformations, ensuring consistent value assessment and reducing the risk of purchasing redundant data. The effectiveness of PriArTa is demonstrated through experiments on real-world image datasets, showing its ability to perform privacy-preserving, augmentation-robust data valuation in data marketplaces.
- Abstract(参考訳): 購入者が価値あるデータを購入しようとするデータマーケットプレースにおけるデータセットの評価は、重要な課題である。
本稿では,購入者の既存データセットの分布と販売者のデータセットとの距離を計算する手法であるPriArTaを提案する。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
その代わり、買い手は売り手に対して、データに対して特定の事前処理を実行し、その結果を返送するように要求する。
この情報と採点基準を用いて、買い手はデータセットを評価することができる。
事前処理は、購入者が各販売者のデータセットのプライバシを保持しながらスコアを計算できるように設計されており、購入前に情報漏洩のリスクを軽減している。
PriArTaの重要な特徴は、共通のデータ変換に対する堅牢性、一貫性のある値アセスメントの確保、冗長なデータを購入するリスクの低減である。
PriArTaの有効性は、実世界のイメージデータセットの実験を通じて実証され、データマーケットプレースでプライバシ保存、拡張ロバストなデータバリュエーションを実行する能力を示している。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Truthful Dataset Valuation by Pointwise Mutual Information [28.63827288801458]
観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。
本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - A Survey of Data Pricing for Data Marketplaces [77.3189288320768]
本稿では,既存のデータ価格研究の現状を概観する。
我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。
論文 参考訳(メタデータ) (2023-03-07T04:35:56Z) - IPProtect: protecting the intellectual property of visual datasets
during data valuation [8.092563412918128]
データバリュエーション中に共有する必要があるデータセットのIPをプリエンプティブに保護する新しいタスクに取り組む。
まず、視覚データセットにおける2種類の新しいIPリスク、すなわち、データイテム(画像)IPと統計(データセット)IPを特定し、形式化する。
論文 参考訳(メタデータ) (2022-12-22T03:36:19Z) - Fundamentals of Task-Agnostic Data Valuation [21.78555506720078]
データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。
検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
論文 参考訳(メタデータ) (2022-08-25T22:07:07Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。