論文の概要: Shapley Value on Probabilistic Classifiers
- arxiv url: http://arxiv.org/abs/2306.07171v1
- Date: Mon, 12 Jun 2023 15:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:11:07.760910
- Title: Shapley Value on Probabilistic Classifiers
- Title(参考訳): 確率的分類器におけるshapley値
- Authors: Xiang Li and Haocheng Xia and Jinfei Liu
- Abstract要約: 機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
- 参考スコア(独自算出の注目度): 6.163093930860032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation has become an increasingly significant discipline in data
science due to the economic value of data. In the context of machine learning
(ML), data valuation methods aim to equitably measure the contribution of each
data point to the utility of an ML model. One prevalent method is Shapley
value, which helps identify data points that are beneficial or detrimental to
an ML model. However, traditional Shapley-based data valuation methods may not
effectively distinguish between beneficial and detrimental training data points
for probabilistic classifiers. In this paper, we propose Probabilistic Shapley
(P-Shapley) value by constructing a probability-wise utility function that
leverages the predicted class probabilities of probabilistic classifiers rather
than binarized prediction results in the traditional Shapley value. We also
offer several activation functions for confidence calibration to effectively
quantify the marginal contribution of each data point to the probabilistic
classifiers. Extensive experiments on four real-world datasets demonstrate the
effectiveness of our proposed P-Shapley value in evaluating the importance of
data for building a high-usability and trustworthy ML model.
- Abstract(参考訳): データ評価は、データの経済的価値のために、データサイエンスにおいてますます重要な分野になりつつある。
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
1つの一般的な方法はShapley値であり、MLモデルに有益または有害なデータポイントを特定するのに役立つ。
しかし、従来のShapleyベースのデータ評価手法では、確率的分類器のための有益と有害な訓練データポイントを効果的に区別することはできない。
本稿では,二項化予測結果よりも確率的分類器の予測クラス確率を利用する確率的ユーティリティ関数を構築することにより,確率的シェープリー(P-Shapley)値を提案する。
また,各データポイントの確率的分類器への限界寄与を効果的に定量化するために,信頼度校正のための複数のアクティベーション関数を提供する。
4つの実世界のデータセットに対する大規模な実験は、高可用性で信頼性の高いMLモデルを構築する上でのデータの重要性を評価する上で、提案したP-Shapley値の有効性を示す。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。
機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文 参考訳(メタデータ) (2024-02-14T16:21:47Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Data Banzhaf: A Robust Data Valuation Framework for Machine Learning [18.65808473565554]
本稿では, 雑音モデルの性能スコアに対するデータ評価のロバスト性について検討する。
データ価値の概念の堅牢性を測定する安全マージンの概念を導入する。
また,Banzhaf値がすべての半値の中で最大の安全性マージンを達成していることを示す。
論文 参考訳(メタデータ) (2022-05-30T23:44:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。