論文の概要: Fundamentals of Task-Agnostic Data Valuation
- arxiv url: http://arxiv.org/abs/2208.12354v1
- Date: Thu, 25 Aug 2022 22:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:24:56.673946
- Title: Fundamentals of Task-Agnostic Data Valuation
- Title(参考訳): タスク非依存データ評価の基礎
- Authors: Mohammad Mohammadi Amiri, Frederic Berdoz, Ramesh Raskar
- Abstract要約: データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。
検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
- 参考スコア(独自算出の注目度): 21.78555506720078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study valuing the data of a data owner/seller for a data seeker/buyer.
Data valuation is often carried out for a specific task assuming a particular
utility metric, such as test accuracy on a validation set, that may not exist
in practice. In this work, we focus on task-agnostic data valuation without any
validation requirements. The data buyer has access to a limited amount of data
(which could be publicly available) and seeks more data samples from a data
seller. We formulate the problem as estimating the differences in the
statistical properties of the data at the seller with respect to the baseline
data available at the buyer. We capture these statistical differences through
second moment by measuring diversity and relevance of the seller's data for the
buyer; we estimate these measures through queries to the seller without
requesting raw data. We design the queries with the proposed approach so that
the seller is blind to the buyer's raw data and has no knowledge to fabricate
responses to queries to obtain a desired outcome of the diversity and relevance
trade-off.We will show through extensive experiments on real tabular and image
datasets that the proposed estimates capture the diversity and relevance of the
seller's data for the buyer.
- Abstract(参考訳): データ検索/購入者のためのデータ所有者/販売者のデータを評価する。
データ評価は、検証セットにおけるテストの精度など、実際に存在しないような特定のユーティリティメトリックを仮定する特定のタスクに対して実行されることが多い。
本研究では,検証の必要なく,タスクに依存しないデータ評価に焦点を当てる。
データバイヤーは限られた量のデータ(公開可能)にアクセスでき、データ販売者からより多くのデータサンプルを求める。
本稿では,購入者が利用可能なベースラインデータに関して,販売者におけるデータの統計特性の違いを推定するものとして,問題を定式化する。
購入者に対する販売者のデータの多様性と妥当性を計測し、第2の瞬間を通じてこれらの統計的な差異を把握し、生データを要求せずに販売者への問い合わせを通じてこれらの尺度を推定する。
提案手法を用いて, 販売者が購入者の生データに盲目であり, 多様性と関連性のトレードオフの望ましい結果を得るために, 問い合わせに対する応答を作成する知識を持たないクエリの設計を行い, 提案手法が購入者のデータの多様性と妥当性を捉えた実表と画像データセットの広範な実験を通して示す。
関連論文リスト
- A Bargaining-based Approach for Feature Trading in Vertical Federated
Learning [54.51890573369637]
本稿では,垂直的フェデレートラーニング(VFL)において,経済的に効率的な取引を促進するための交渉型特徴取引手法を提案する。
当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。
論文 参考訳(メタデータ) (2024-02-23T10:21:07Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - A Survey of Data Pricing for Data Marketplaces [77.3189288320768]
本稿では,既存のデータ価格研究の現状を概観する。
我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。
論文 参考訳(メタデータ) (2023-03-07T04:35:56Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z) - Data Appraisal Without Data Sharing [28.41079503636652]
セキュアなマルチパーティ計算によるデータ共有を必要としない手法を開発した。
実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-11T15:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。