論文の概要: A Distributional Framework for Data Valuation
- arxiv url: http://arxiv.org/abs/2002.12334v1
- Date: Thu, 27 Feb 2020 18:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:47:00.750484
- Title: A Distributional Framework for Data Valuation
- Title(参考訳): データ評価のための分散フレームワーク
- Authors: Amirata Ghorbani, Michael P. Kim, James Zou
- Abstract要約: 我々は,形式的な保証付きデータから値を推定するアルゴリズムを開発し,最先端のアルゴリズムよりも2桁高速に動作させる。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
- 参考スコア(独自算出の注目度): 26.065217938868617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shapley value is a classic notion from game theory, historically used to
quantify the contributions of individuals within groups, and more recently
applied to assign values to data points when training machine learning models.
Despite its foundational role, a key limitation of the data Shapley framework
is that it only provides valuations for points within a fixed data set. It does
not account for statistical aspects of the data and does not give a way to
reason about points outside the data set. To address these limitations, we
propose a novel framework -- distributional Shapley -- where the value of a
point is defined in the context of an underlying data distribution. We prove
that distributional Shapley has several desirable statistical properties; for
example, the values are stable under perturbations to the data points
themselves and to the underlying data distribution. We leverage these
properties to develop a new algorithm for estimating values from data, which
comes with formal guarantees and runs two orders of magnitude faster than
state-of-the-art algorithms for computing the (non-distributional) data Shapley
values. We apply distributional Shapley to diverse data sets and demonstrate
its utility in a data market setting.
- Abstract(参考訳): shapley valueはゲーム理論の古典的な概念であり、歴史的にグループ内の個人の貢献を定量化するために使われ、最近では機械学習モデルをトレーニングする際にデータポイントに価値を割り当てるために応用されている。
基本的な役割にもかかわらず、データ共有フレームワークの重要な制限は、固定データセット内のポイントに対する評価のみを提供することだ。
データの統計的側面を考慮せず、データセット外の点を推論する手段を提供していない。
これらの制限に対処するため、我々は、基礎となるデータ分散の文脈でポイントの値が定義される、新しいフレームワーク、分散共有を提案する。
分布Shapleyにはいくつかの望ましい統計特性があることを証明し、例えば、データはデータポイント自体や基礎となるデータ分散に対する摂動の下で安定している。
これらの特性を活かして,データから値を推定する新たなアルゴリズムを開発した。形式的保証を伴い,(非分布的)データシェープリー値を計算するための最先端アルゴリズムよりも2桁高速に動作している。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Uncertainty Quantification of Data Shapley via Statistical Inference [20.35973700939768]
データ市場の出現は、データバリュエーションの重要性の高まりを浮き彫りにしている。
機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。
本稿では,データ共有度と無限次U-統計量の関係について述べる。
論文 参考訳(メタデータ) (2024-07-28T02:54:27Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Efficient computation and analysis of distributional Shapley values [15.322542729755998]
線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。
我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
論文 参考訳(メタデータ) (2020-07-02T19:51:54Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。