論文の概要: Robust Data Valuation via Variance Reduced Data Shapley
- arxiv url: http://arxiv.org/abs/2210.16835v1
- Date: Sun, 30 Oct 2022 13:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:59:25.694312
- Title: Robust Data Valuation via Variance Reduced Data Shapley
- Title(参考訳): 変動低減データ共有によるロバストデータ評価
- Authors: Mengmeng Wu, Ruoxi Jia, Changle lin, Wei Huang, Xiangyu Chang
- Abstract要約: 階層化サンプリングを用いたよりロバストなデータ評価手法を提案する。
理論的には、層状化の方法、各層でどれだけのサンプルを採取するか、そしてVRDSの複雑さ分析の例を示す。
- 参考スコア(独自算出の注目度): 16.03510965397185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation, especially quantifying data value in algorithmic prediction
and decision-making, is a fundamental problem in data trading scenarios. The
most widely used method is to define the data Shapley and approximate it by
means of the permutation sampling algorithm. To make up for the large
estimation variance of the permutation sampling that hinders the development of
the data marketplace, we propose a more robust data valuation method using
stratified sampling, named variance reduced data Shapley (VRDS for short). We
theoretically show how to stratify, how many samples are taken at each stratum,
and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS
is illustrated in different types of datasets and data removal applications.
- Abstract(参考訳): データバリュエーション、特にアルゴリズム予測と意思決定におけるデータ価値の定量化は、データ取引シナリオにおいて根本的な問題である。
最も広く使われている方法は、データシャプリーを定義し、置換サンプリングアルゴリズムを用いて近似することである。
本研究では,データマーケットプレースの発展を妨げる置換サンプリングの大規模な推定分散を補うために,分散低減データ共有(VRDS)と呼ばれる階層化サンプリングを用いたより堅牢なデータ評価手法を提案する。
理論的には、階層化の方法、各層で採取されたサンプル数、vrdのサンプル複雑性分析などを示す。
最後に、VRDSの有効性は、異なるタイプのデータセットとデータ削除アプリケーションで示される。
関連論文リスト
- Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - More Informed Random Sample Consensus [1.827510863075184]
本稿では,L'evy分布とデータソートアルゴリズムを併用してデータをサンプリングする手法を提案する。
提案手法の仮説サンプリングステップでは, データをソートアルゴリズムでソートし, 不整集合にあるデータ点の確率に基づいてデータをソートする。
次に、L'evy分布のソートされたデータから仮説をサンプリングする。
論文 参考訳(メタデータ) (2020-11-18T06:43:50Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Relationship-aware Multivariate Sampling Strategy for Scientific
Simulation Data [4.2855912967712815]
本研究では,元の変数関係を保存する多変量サンプリング戦略を提案する。
提案手法は主成分分析を用いて多変量データの分散を抽出し, 単一変数に対する既存の最先端サンプリングアルゴリズム上に構築することができる。
論文 参考訳(メタデータ) (2020-08-31T00:52:17Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。