論文の概要: On the Inflation of KNN-Shapley Value
- arxiv url: http://arxiv.org/abs/2405.17489v1
- Date: Sat, 25 May 2024 03:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:00:30.051378
- Title: On the Inflation of KNN-Shapley Value
- Title(参考訳): KNN共有値のインフレーションについて
- Authors: Ziao Yang, Han Yue, Jian Chen, Hongfu Liu,
- Abstract要約: 本稿では, 有害試料と有害試料を区別する閾値としてゼロを校正するキャリブレーションKNN-Shapleyを提案する。
本稿では,データ評価インフレーションの緩和,有害サンプルの検出,データ品質評価におけるCKNN-Shapleyの有効性を示す。
- 参考スコア(独自算出の注目度): 26.105554752277648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shapley value-based data valuation methods, originating from cooperative game theory, quantify the usefulness of each individual sample by considering its contribution to all possible training subsets. Despite their extensive applications, these methods encounter the challenge of value inflation - while samples with negative Shapley values are detrimental, some with positive values can also be harmful. This challenge prompts two fundamental questions: the suitability of zero as a threshold for distinguishing detrimental from beneficial samples and the determination of an appropriate threshold. To address these questions, we focus on KNN-Shapley and propose Calibrated KNN-Shapley (CKNN-Shapley), which calibrates zero as the threshold to distinguish detrimental samples from beneficial ones by mitigating the negative effects of small-sized training subsets. Through extensive experiments, we demonstrate the effectiveness of CKNN-Shapley in alleviating data valuation inflation, detecting detrimental samples, and assessing data quality. We also extend our approach beyond conventional classification settings, applying it to diverse and practical scenarios such as learning with mislabeled data, online learning with stream data, and active learning for label annotation.
- Abstract(参考訳): 共有価値に基づくデータ評価手法は、協調ゲーム理論から派生したもので、個々のサンプルの有用性を、トレーニングサブセットの全てに寄与することを考慮して定量化する。
広い応用にもかかわらず、これらの手法は価値インフレーションの課題に直面する - 負のシェープリー値を持つサンプルは有害であるが、正の値を持つサンプルも有害である。
この課題は、2つの基本的な疑問を提起する: 有害なサンプルと有害なサンプルを区別するためのしきい値としてのゼロの適合性と、適切なしきい値の決定である。
これらの問題に対処するために、我々はKNN-Shapleyに着目し、小さなトレーニングサブセットの負の効果を軽減し、有害なサンプルと有害なサンプルを区別する閾値としてゼロを校正するCalibrated KNN-Shapley (CKNN-Shapley)を提案する。
広範な実験を通じて、データ評価インフレーションの緩和、有害サンプルの検出、データ品質の評価におけるCKNN-Shapleyの有効性を実証した。
また、従来の分類設定を超えて、誤ラベル付きデータによる学習、ストリームデータによるオンライン学習、ラベルアノテーションのためのアクティブ学習など、多種多様な実践シナリオに適用する。
関連論文リスト
- Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction [8.691440960669649]
信頼できる人工知能における分類問題に関する重要な問題の1つは、異なるクラスの予測において公平性を保証することである。
トレーニングデータのバイアスが機械学習に反映され、人間の生活に影響を与え、現在の規制に従わないため、これらのケースではデータ品質が重要になります。
本研究は,各データ群のデータ形態を利用したアンダーサンプリング手法であるフェアオーバーラップボール数(Fair-ONB)を提案する。
論文 参考訳(メタデータ) (2024-07-19T11:16:02Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z) - Data Banzhaf: A Robust Data Valuation Framework for Machine Learning [18.65808473565554]
本稿では, 雑音モデルの性能スコアに対するデータ評価のロバスト性について検討する。
データ価値の概念の堅牢性を測定する安全マージンの概念を導入する。
また,Banzhaf値がすべての半値の中で最大の安全性マージンを達成していることを示す。
論文 参考訳(メタデータ) (2022-05-30T23:44:09Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning [10.014356492742074]
本稿では,正の未ラベル学習環境における不均衡データセットとモデル校正の問題に取り組むことを提案する。
マイノリティクラスからのシグナルを増強することにより、擬似ラベル付けはラベル付きデータセットをラベル付きデータセットから新しいサンプルで拡張する。
PUUPLは一連の実験において、高度に不均衡な設定で大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2022-01-31T12:55:47Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。