論文の概要: CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification
- arxiv url: http://arxiv.org/abs/2211.06800v1
- Date: Sun, 13 Nov 2022 03:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:10:16.588208
- Title: CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification
- Title(参考訳): CS-Shapley:分類におけるデータ評価のためのクラスワイドShapley値
- Authors: Stephanie Schoch, Haifeng Xu, Yangfeng Ji
- Abstract要約: CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
- 参考スコア(独自算出の注目度): 24.44357623723746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation, or the valuation of individual datum contributions, has seen
growing interest in machine learning due to its demonstrable efficacy for tasks
such as noisy label detection. In particular, due to the desirable axiomatic
properties, several Shapley value approximation methods have been proposed. In
these methods, the value function is typically defined as the predictive
accuracy over the entire development set. However, this limits the ability to
differentiate between training instances that are helpful or harmful to their
own classes. Intuitively, instances that harm their own classes may be noisy or
mislabeled and should receive a lower valuation than helpful instances. In this
work, we propose CS-Shapley, a Shapley value with a new value function that
discriminates between training instances' in-class and out-of-class
contributions. Our theoretical analysis shows the proposed value function is
(essentially) the unique function that satisfies two desirable properties for
evaluating data values in classification. Further, our experiments on two
benchmark evaluation tasks (data removal and noisy label detection) and four
classifiers demonstrate the effectiveness of CS-Shapley over existing methods.
Lastly, we evaluate the "transferability" of data values estimated from one
classifier to others, and our results suggest Shapley-based data valuation is
transferable for application across different models.
- Abstract(参考訳): データバリュエーション(あるいは個々のdatumコントリビューションのバリュエーション)は、ノイズのラベル検出などのタスクに実証可能な効果があるため、マシンラーニングへの関心が高まっている。
特に、望ましい公理特性のため、いくつかのShapley値近似法が提案されている。
これらの手法では、値関数は一般に開発全体の予測精度として定義される。
しかし、これは、自身のクラスにとって有益または有害なトレーニングインスタンスを区別する能力を制限する。
直感的には、自身のクラスを傷つけるインスタンスは騒がしいか誤記があり、有用なインスタンスよりも低い評価を受けるべきである。
本研究では,CS-Shapleyという,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数を提案する。
提案した値関数は,分類におけるデータ値を評価する上で望ましい2つの特性を満たす一意関数であることを示す。
さらに,2つのベンチマーク評価タスク(データ除去とノイズラベル検出)と4つの分類器について実験を行い,CS-Shapleyの有効性を示した。
最後に,1つの分類器から他のモデルへ推定されるデータ値の「転送可能性」を評価し,shapleyベースのデータ評価が異なるモデル間でのアプリケーション間で転送可能であることを示唆する。
関連論文リスト
- Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Data Banzhaf: A Robust Data Valuation Framework for Machine Learning [18.65808473565554]
本稿では, 雑音モデルの性能スコアに対するデータ評価のロバスト性について検討する。
データ価値の概念の堅牢性を測定する安全マージンの概念を導入する。
また,Banzhaf値がすべての半値の中で最大の安全性マージンを達成していることを示す。
論文 参考訳(メタデータ) (2022-05-30T23:44:09Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z) - Interpretable feature subset selection: A Shapley value based approach [1.511944009967492]
プレイヤーとしての特徴とヒンジロスに基づく特徴関数を持つ協調ゲームである分類ゲームの概念を導入する。
我々の主な貢献は、任意のデータセットに対して、SVEA値のしきい値0がラベル予測のための共同相互作用が重要である特徴サブセットを特定することを示すことである($star$)。
論文 参考訳(メタデータ) (2020-01-12T16:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。