論文の概要: Robust Data Valuation via Variance Reduced Data Shapley
- arxiv url: http://arxiv.org/abs/2210.16835v2
- Date: Tue, 1 Nov 2022 13:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 10:28:52.334200
- Title: Robust Data Valuation via Variance Reduced Data Shapley
- Title(参考訳): 変動低減データ共有によるロバストデータ評価
- Authors: Mengmeng Wu, Ruoxi Jia, Changle Lin, Wei Huang, Xiangyu Chang
- Abstract要約: 階層化サンプリングを用いたよりロバストなデータ評価手法を提案する。
理論的には、層状化の方法、各層でどれだけのサンプルを採取するか、そしてVRDSの複雑さ分析の例を示す。
- 参考スコア(独自算出の注目度): 16.03510965397185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation, especially quantifying data value in algorithmic prediction
and decision-making, is a fundamental problem in data trading scenarios. The
most widely used method is to define the data Shapley and approximate it by
means of the permutation sampling algorithm. To make up for the large
estimation variance of the permutation sampling that hinders the development of
the data marketplace, we propose a more robust data valuation method using
stratified sampling, named variance reduced data Shapley (VRDS for short). We
theoretically show how to stratify, how many samples are taken at each stratum,
and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS
is illustrated in different types of datasets and data removal applications.
- Abstract(参考訳): データバリュエーション、特にアルゴリズム予測と意思決定におけるデータ価値の定量化は、データ取引シナリオにおいて根本的な問題である。
最も広く使われている方法は、データシャプリーを定義し、置換サンプリングアルゴリズムを用いて近似することである。
本研究では,データマーケットプレースの発展を妨げる置換サンプリングの大規模な推定分散を補うために,分散低減データ共有(VRDS)と呼ばれる階層化サンプリングを用いたより堅牢なデータ評価手法を提案する。
理論的には、階層化の方法、各層で採取されたサンプル数、vrdのサンプル複雑性分析などを示す。
最後に、VRDSの有効性は、異なるタイプのデータセットとデータ削除アプリケーションで示される。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Uncertainty Quantification of Data Shapley via Statistical Inference [20.35973700939768]
データ市場の出現は、データバリュエーションの重要性の高まりを浮き彫りにしている。
機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。
本稿では,データ共有度と無限次U-統計量の関係について述べる。
論文 参考訳(メタデータ) (2024-07-28T02:54:27Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Relationship-aware Multivariate Sampling Strategy for Scientific
Simulation Data [4.2855912967712815]
本研究では,元の変数関係を保存する多変量サンプリング戦略を提案する。
提案手法は主成分分析を用いて多変量データの分散を抽出し, 単一変数に対する既存の最先端サンプリングアルゴリズム上に構築することができる。
論文 参考訳(メタデータ) (2020-08-31T00:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。