論文の概要: Accelerated Shapley Value Approximation for Data Evaluation
- arxiv url: http://arxiv.org/abs/2311.05346v1
- Date: Thu, 9 Nov 2023 13:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:16:20.134607
- Title: Accelerated Shapley Value Approximation for Data Evaluation
- Title(参考訳): データ評価のためのshapley値近似の高速化
- Authors: Lauren Watson, Zeno Kujawa, Rayna Andreeva, Hao-Tsung Yang, Tariq
Elahi, Rik Sarkar
- Abstract要約: 機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
- 参考スコア(独自算出の注目度): 3.707457963532597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation has found various applications in machine learning, such as
data filtering, efficient learning and incentives for data sharing. The most
popular current approach to data valuation is the Shapley value. While popular
for its various applications, Shapley value is computationally expensive even
to approximate, as it requires repeated iterations of training models on
different subsets of data. In this paper we show that the Shapley value of data
points can be approximated more efficiently by leveraging the structural
properties of machine learning problems. We derive convergence guarantees on
the accuracy of the approximate Shapley value for different learning settings
including Stochastic Gradient Descent with convex and non-convex loss
functions. Our analysis suggests that in fact models trained on small subsets
are more important in the context of data valuation. Based on this idea, we
describe $\delta$-Shapley -- a strategy of only using small subsets for the
approximation. Experiments show that this approach preserves approximate value
and rank of data, while achieving speedup of up to 9.9x. In pre-trained
networks the approach is found to bring more efficiency in terms of accurate
evaluation using small subsets.
- Abstract(参考訳): データバリュエーションは、データフィルタリング、効率的な学習、データ共有のインセンティブなど、さまざまな機械学習の応用を見出している。
データバリュエーションに対する現在の最も一般的なアプローチは、Shapley値である。
様々な応用で人気があるが、shapleyの値は、異なるサブセットのデータのトレーニングモデルの反復を必要とするため、近似しても計算コストが高い。
本稿では,機械学習問題の構造的特性を利用して,データポイントのシェープ値をより効率的に近似できることを示す。
凸損失関数と非凸損失関数を含む確率勾配降下を含む異なる学習環境における近似シャプリー値の精度に関する収束性を保証する。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
この考えに基づき、近似に小さな部分集合のみを使用する戦略である$\delta$-Shapleyについて説明する。
実験によると、このアプローチはデータの近似値とランクを保ち、最大9.9倍のスピードアップを達成する。
事前学習されたネットワークでは、小さなサブセットを用いて正確な評価を行うことで、より効率的な手法が期待できる。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - An Efficient Shapley Value Computation for the Naive Bayes Classifier [0.0]
本稿では, 単純ベイズ分類器の場合のShapley値の正確な解析式を提案する。
以上の結果から,本提案はアルゴリズムの複雑さを低く抑えた有意な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-31T14:39:10Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - A Multilinear Sampling Algorithm to Estimate Shapley Values [4.771833920251869]
ゲーム理論に適用したマルチ線形拡張手法に基づく新しいサンプリング手法を提案する。
本手法は任意の機械学習モデル,特に多クラス分類や回帰問題に適用可能である。
論文 参考訳(メタデータ) (2020-10-22T21:47:16Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Efficient computation and analysis of distributional Shapley values [15.322542729755998]
線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。
我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
論文 参考訳(メタデータ) (2020-07-02T19:51:54Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。