論文の概要: A Distributional Framework for Data Valuation
- arxiv url: http://arxiv.org/abs/2002.12334v1
- Date: Thu, 27 Feb 2020 18:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:47:00.750484
- Title: A Distributional Framework for Data Valuation
- Title(参考訳): データ評価のための分散フレームワーク
- Authors: Amirata Ghorbani, Michael P. Kim, James Zou
- Abstract要約: 我々は,形式的な保証付きデータから値を推定するアルゴリズムを開発し,最先端のアルゴリズムよりも2桁高速に動作させる。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
- 参考スコア(独自算出の注目度): 26.065217938868617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shapley value is a classic notion from game theory, historically used to
quantify the contributions of individuals within groups, and more recently
applied to assign values to data points when training machine learning models.
Despite its foundational role, a key limitation of the data Shapley framework
is that it only provides valuations for points within a fixed data set. It does
not account for statistical aspects of the data and does not give a way to
reason about points outside the data set. To address these limitations, we
propose a novel framework -- distributional Shapley -- where the value of a
point is defined in the context of an underlying data distribution. We prove
that distributional Shapley has several desirable statistical properties; for
example, the values are stable under perturbations to the data points
themselves and to the underlying data distribution. We leverage these
properties to develop a new algorithm for estimating values from data, which
comes with formal guarantees and runs two orders of magnitude faster than
state-of-the-art algorithms for computing the (non-distributional) data Shapley
values. We apply distributional Shapley to diverse data sets and demonstrate
its utility in a data market setting.
- Abstract(参考訳): shapley valueはゲーム理論の古典的な概念であり、歴史的にグループ内の個人の貢献を定量化するために使われ、最近では機械学習モデルをトレーニングする際にデータポイントに価値を割り当てるために応用されている。
基本的な役割にもかかわらず、データ共有フレームワークの重要な制限は、固定データセット内のポイントに対する評価のみを提供することだ。
データの統計的側面を考慮せず、データセット外の点を推論する手段を提供していない。
これらの制限に対処するため、我々は、基礎となるデータ分散の文脈でポイントの値が定義される、新しいフレームワーク、分散共有を提案する。
分布Shapleyにはいくつかの望ましい統計特性があることを証明し、例えば、データはデータポイント自体や基礎となるデータ分散に対する摂動の下で安定している。
これらの特性を活かして,データから値を推定する新たなアルゴリズムを開発した。形式的保証を伴い,(非分布的)データシェープリー値を計算するための最先端アルゴリズムよりも2桁高速に動作している。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
関連論文リスト
- Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.289887533168226]
離散一様シャプリー(DU-Shapley)と呼ばれるシャプリー値の新しい近似法を提案する。
DU-Shapleyは、データ所有者の数が少ない場合でも、他のShapley値近似よりも優れている。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Efficient computation and analysis of distributional Shapley values [15.322542729755998]
線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。
我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
論文 参考訳(メタデータ) (2020-07-02T19:51:54Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。