論文の概要: Differentially Private Shapley Values for Data Evaluation
- arxiv url: http://arxiv.org/abs/2206.00511v1
- Date: Wed, 1 Jun 2022 14:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 13:40:03.585143
- Title: Differentially Private Shapley Values for Data Evaluation
- Title(参考訳): データ評価のための微分プライベートシャプリー値
- Authors: Lauren Watson, Rayna Andreeva, Hao-Tsung Yang, Rik Sarkar
- Abstract要約: 共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
- 参考スコア(独自算出の注目度): 3.616258473002814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Shapley value has been proposed as a solution to many applications in
machine learning, including for equitable valuation of data. Shapley values are
computationally expensive and involve the entire dataset. The query for a
point's Shapley value can also compromise the statistical privacy of other data
points. We observe that in machine learning problems such as empirical risk
minimization, and in many learning algorithms (such as those with uniform
stability), a diminishing returns property holds, where marginal benefit per
data point decreases rapidly with data sample size. Based on this property, we
propose a new stratified approximation method called the Layered Shapley
Algorithm. We prove that this method operates on small (O(\polylog(n))) random
samples of data and small sized ($O(\log n)$) coalitions to achieve the results
with guaranteed probabilistic accuracy, and can be modified to incorporate
differential privacy. Experimental results show that the algorithm correctly
identifies high-value data points that improve validation accuracy, and that
the differentially private evaluations preserve approximate ranking of data.
- Abstract(参考訳): shapley値は、データの等価な評価を含む、機械学習の多くのアプリケーションに対するソリューションとして提案されている。
shapleyの値は計算コストが高く、データセット全体に関わる。
ポイントのShapley値に対するクエリは、他のデータポイントの統計的プライバシーを損なう可能性がある。
経験的リスク最小化などの機械学習問題や、多くの学習アルゴリズム(安定性の低いものなど)では、データ点当たりの限界利益がデータサンプルサイズとともに急速に減少するリターン特性が保持される。
この性質に基づき,階層化近似法として階層化shapleyアルゴリズムを提案する。
この手法は,データの小さな (o(\polylog(n))) ランダムなサンプルと小サイズの (o(\log n)$) 連立で動作し, 確率的精度が保証された結果が得られることを証明し, 微分プライバシーを組み込むように修正することができる。
実験結果から,検証精度を向上する高値データポイントを精度良く同定し,偏微分プライベート評価がデータの近似ランキングを保っていることがわかった。
関連論文リスト
- Efficient Data Shapley for Weighted Nearest Neighbor Algorithms [47.62605581521535]
WKNN-Shapleyは、重み付き$K$近辺アルゴリズム(WKNN-Shapley)のためのデータ共有の効率的な計算法である
我々は、WKNN-Shapleyの計算効率と、データ品質を非重み付きと比較した場合の優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-20T03:34:18Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Variance reduced Shapley value estimation for trustworthy data valuation [16.03510965397185]
階層化サンプリングを用いたよりロバストなデータ評価手法を提案する。
理論的には、層状化の方法、各層でどれだけのサンプルを採取するか、そしてVRDSの複雑さ分析の例を示す。
論文 参考訳(メタデータ) (2022-10-30T13:04:52Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Differentially Private Simple Linear Regression [2.614403183902121]
差分プライバシーを満たす単純な線形回帰のアルゴリズムについて検討する。
小データセットに対する単純な線形回帰のための微分プライベートアルゴリズムの設計を考察する。
設定に適応するアルゴリズムのスペクトルの性能について検討する。
論文 参考訳(メタデータ) (2020-07-10T04:28:43Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - A Distributional Framework for Data Valuation [26.065217938868617]
我々は,形式的な保証付きデータから値を推定するアルゴリズムを開発し,最先端のアルゴリズムよりも2桁高速に動作させる。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
論文 参考訳(メタデータ) (2020-02-27T18:51:35Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。