論文の概要: Efficient computation and analysis of distributional Shapley values
- arxiv url: http://arxiv.org/abs/2007.01357v3
- Date: Wed, 17 Feb 2021 21:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:35:19.802688
- Title: Efficient computation and analysis of distributional Shapley values
- Title(参考訳): 分散シェープリー値の効率的な計算と解析
- Authors: Yongchan Kwon, Manuel A. Rivas, James Zou
- Abstract要約: 線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。
我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
- 参考スコア(独自算出の注目度): 15.322542729755998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional data Shapley value (DShapley) has recently been proposed as a
principled framework to quantify the contribution of individual datum in
machine learning. DShapley develops the foundational game theory concept of
Shapley values into a statistical framework and can be applied to identify data
points that are useful (or harmful) to a learning algorithm. Estimating
DShapley is computationally expensive, however, and this can be a major
challenge to using it in practice. Moreover, there has been little mathematical
analyses of how this value depends on data characteristics. In this paper, we
derive the first analytic expressions for DShapley for the canonical problems
of linear regression, binary classification, and non-parametric density
estimation. These analytic forms provide new algorithms to estimate DShapley
that are several orders of magnitude faster than previous state-of-the-art
methods. Furthermore, our formulas are directly interpretable and provide
quantitative insights into how the value varies for different types of data. We
demonstrate the practical efficacy of our approach on multiple real and
synthetic datasets.
- Abstract(参考訳): 分散データ共有値(DShapley)は、機械学習における個々のダムの寄与を定量化するための原則的フレームワークとして最近提案されている。
DShapleyは、Shapley値の基本的なゲーム理論の概念を統計的フレームワークに発展させ、学習アルゴリズムに有用な(あるいは有害な)データポイントを特定するために応用することができる。
しかし,DShapleyの推定には計算コストがかかるため,実際に使用する上では大きな課題となる可能性がある。
さらに、この値がデータ特性にどう依存するかの数学的解析はほとんど行われていない。
本稿では、線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。
これらの解析形式は、従来の最先端手法よりも数桁高速なDShapleyを推定する新しいアルゴリズムを提供する。
さらに、この式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかに関する定量的な洞察を提供する。
本稿では,複数の実データと合成データに対するアプローチの実用性を示す。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。
Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。
本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - A Multilinear Sampling Algorithm to Estimate Shapley Values [4.771833920251869]
ゲーム理論に適用したマルチ線形拡張手法に基づく新しいサンプリング手法を提案する。
本手法は任意の機械学習モデル,特に多クラス分類や回帰問題に適用可能である。
論文 参考訳(メタデータ) (2020-10-22T21:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。