論文の概要: Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
- arxiv url: http://arxiv.org/abs/2205.15466v7
- Date: Mon, 18 Dec 2023 14:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:39:21.377742
- Title: Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
- Title(参考訳): Data Banzhaf: 機械学習のためのロバストなデータ評価フレームワーク
- Authors: Jiachen T. Wang, Ruoxi Jia
- Abstract要約: 本稿では, 雑音モデルの性能スコアに対するデータ評価のロバスト性について検討する。
データ価値の概念の堅牢性を測定する安全マージンの概念を導入する。
また,Banzhaf値がすべての半値の中で最大の安全性マージンを達成していることを示す。
- 参考スコア(独自算出の注目度): 18.65808473565554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation has wide use cases in machine learning, including improving
data quality and creating economic incentives for data sharing. This paper
studies the robustness of data valuation to noisy model performance scores.
Particularly, we find that the inherent randomness of the widely used
stochastic gradient descent can cause existing data value notions (e.g., the
Shapley value and the Leave-one-out error) to produce inconsistent data value
rankings across different runs. To address this challenge, we introduce the
concept of safety margin, which measures the robustness of a data value notion.
We show that the Banzhaf value, a famous value notion that originated from
cooperative game theory literature, achieves the largest safety margin among
all semivalues (a class of value notions that satisfy crucial properties
entailed by ML applications and include the famous Shapley value and
Leave-one-out error). We propose an algorithm to efficiently estimate the
Banzhaf value based on the Maximum Sample Reuse (MSR) principle. Our evaluation
demonstrates that the Banzhaf value outperforms the existing semivalue-based
data value notions on several ML tasks such as learning with weighted samples
and noisy label detection. Overall, our study suggests that when the underlying
ML algorithm is stochastic, the Banzhaf value is a promising alternative to the
other semivalue-based data value schemes given its computational advantage and
ability to robustly differentiate data quality.
- Abstract(参考訳): データバリュエーションには、データ品質の改善やデータ共有のための経済的インセンティブの作成など、マシンラーニングの幅広いユースケースがある。
本稿では,ノイズモデルの性能評価に対するデータ評価の堅牢性について検討する。
特に,広く使われている確率的勾配降下の固有ランダム性は,既存のデータ値概念(例えば,シャプリー値と残欠誤差)を発生させ,異なるランにまたがって一貫性のないデータ値ランキングを生成する。
この課題に対処するために,データ値の概念の堅牢性を測定する安全マージンの概念を導入する。
協調ゲーム理論の文献から派生した有名な値概念であるBanzhaf値が、すべての半値の中で最大の安全性のマージンを達成していることを示す(MLアプリケーションで重要な特性を満足し、有名なShapley値とLeave-outエラーを含む価値概念のクラス)。
本稿では,最大サンプル再利用(MSR)原理に基づいて,Banzhaf値を効率的に推定するアルゴリズムを提案する。
評価の結果,Banzhaf値は,重み付きサンプルを用いた学習や雑音ラベル検出などのMLタスクにおいて,既存の半値に基づくデータ値概念よりも優れていることがわかった。
我々の研究は、基礎となるMLアルゴリズムが確率的である場合、Banzhaf値は、その計算上の優位性とデータ品質を堅牢に区別する能力から、他の半値ベースのデータ値スキームに代わる有望な代替となることを示唆している。
関連論文リスト
- Is Data Valuation Learnable and Interpretable? [3.9325957466009203]
現在のデータ評価手法は、出力値の解釈可能性を無視している。
この研究は、データバリュエーションは学習可能か、解釈可能か、という重要な疑問に答えることを目的としている。
論文 参考訳(メタデータ) (2024-06-03T08:13:47Z) - EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。
機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文 参考訳(メタデータ) (2024-02-14T16:21:47Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。