論文の概要: Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for
Machine Learning
- arxiv url: http://arxiv.org/abs/2110.14049v1
- Date: Tue, 26 Oct 2021 22:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 07:42:24.543234
- Title: Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for
Machine Learning
- Title(参考訳): Beta Shapley: マシンラーニングのための統一されたノイズ低減データ評価フレームワーク
- Authors: Yongchan Kwon, James Zou
- Abstract要約: データ共有の相当な一般化であるBeta Shapleyを提案する。
Beta Shapleyは、いくつかの一般的なデータバリュエーションメソッドを統合し、特別なケースとしてデータShapleyを含んでいる。
Beta Shapleyは、いくつかの下流MLタスクにおいて最先端のデータアセスメント手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 13.66570363867102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data Shapley has recently been proposed as a principled framework to quantify
the contribution of individual datum in machine learning. It can effectively
identify helpful or harmful data points for a learning algorithm. In this
paper, we propose Beta Shapley, which is a substantial generalization of Data
Shapley. Beta Shapley arises naturally by relaxing the efficiency axiom of the
Shapley value, which is not critical for machine learning settings. Beta
Shapley unifies several popular data valuation methods and includes data
Shapley as a special case. Moreover, we prove that Beta Shapley has several
desirable statistical properties and propose efficient algorithms to estimate
it. We demonstrate that Beta Shapley outperforms state-of-the-art data
valuation methods on several downstream ML tasks such as: 1) detecting
mislabeled training data; 2) learning with subsamples; and 3) identifying
points whose addition or removal have the largest positive or negative impact
on the model.
- Abstract(参考訳): data shapleyは最近、機械学習における個々のデームの寄与を定量化する原則付きフレームワークとして提案されている。
学習アルゴリズムの有用な、あるいは有害なデータポイントを効果的に特定できる。
本稿では,data shapley の実質的な一般化である beta shapley を提案する。
beta shapleyは、機械学習の設定では重要ではないshapley値の効率公理を緩和することによって自然に発生する。
beta shapleyはいくつかの一般的なデータバリュエーション手法を統合し、特別なケースとしてdata shapleyを含む。
さらに,β shapley には望ましい統計特性がいくつかあることを証明し,その推定に効率的なアルゴリズムを提案する。
Beta Shapleyは、以下のような下流MLタスクにおいて、最先端のデータアセスメント手法よりも優れていることを示す。
1) 誤ラベル付き訓練データの検出
2)サブサンプルによる学習,及び
3) 付加または除去がモデルに最もプラスまたはマイナスの影響を与える点の同定。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - An Efficient Shapley Value Computation for the Naive Bayes Classifier [0.0]
本稿では, 単純ベイズ分類器の場合のShapley値の正確な解析式を提案する。
以上の結果から,本提案はアルゴリズムの複雑さを低く抑えた有意な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-31T14:39:10Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z) - Fast Hierarchical Games for Image Explanations [78.16853337149871]
本稿では,シェープリー係数の階層的拡張に基づく画像分類のモデル非依存な説明法を提案する。
他のShapleyベースの説明手法とは異なり、h-Shapはスケーラブルで近似を必要とせずに計算できる。
本手法は,合成データセット,医用画像シナリオ,一般コンピュータビジョン問題において,一般的なシャプリーベースおよび非サプリーベース手法と比較した。
論文 参考訳(メタデータ) (2021-04-13T13:11:02Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - A Multilinear Sampling Algorithm to Estimate Shapley Values [4.771833920251869]
ゲーム理論に適用したマルチ線形拡張手法に基づく新しいサンプリング手法を提案する。
本手法は任意の機械学習モデル,特に多クラス分類や回帰問題に適用可能である。
論文 参考訳(メタデータ) (2020-10-22T21:47:16Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。