論文の概要: Data Banzhaf: A Data Valuation Framework with Maximal Robustness to
Learning Stochasticity
- arxiv url: http://arxiv.org/abs/2205.15466v1
- Date: Mon, 30 May 2022 23:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:22:19.472833
- Title: Data Banzhaf: A Data Valuation Framework with Maximal Robustness to
Learning Stochasticity
- Title(参考訳): data banzhaf: 学習確率に対する最大ロバスト性を備えたデータ評価フレームワーク
- Authors: Tianhao Wang, Ruoxi Jia
- Abstract要約: バンジャフ値がすべての半値の最大ロバスト性を達成することを示す。
本稿では,最大サンプル再利用原理に基づいて,Banzhaf値を効率的に推定するアルゴリズムを提案する。
我々の評価は、Banzhaf値が既存の半値ベースのデータ値概念より優れていることを示す。
- 参考スコア(独自算出の注目度): 10.97039844014642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the robustness of data valuation to noisy model
performance scores. Particularly, we find that the inherent randomness of the
widely used stochastic gradient descent can cause existing data value notions
(e.g., the Shapley value and the Leave-one-out error) to produce inconsistent
data value rankings across different runs. To address this challenge, we first
pose a formal framework within which one can measure the robustness of a data
value notion. We show that the Banzhaf value, a value notion originated from
cooperative game theory literature, achieves the maximal robustness among all
semivalues -- a class of value notions that satisfy crucial properties entailed
by ML applications. We propose an algorithm to efficiently estimate the Banzhaf
value based on the Maximum Sample Reuse (MSR) principle. We derive the lower
bound sample complexity for Banzhaf value approximation, and we show that our
MSR algorithm's sample complexity nearly matches the lower bound. Our
evaluation demonstrates that the Banzhaf value outperforms the existing
semivalue-based data value notions on several downstream ML tasks such as
learning with weighted samples and noisy label detection. Overall, our study
suggests that when the underlying ML algorithm is stochastic, the Banzhaf value
is a promising alternative to the semivalue-based data value schemes given its
computational advantage and ability to robustly differentiate data quality.
- Abstract(参考訳): 本稿では,ノイズモデルの性能評価に対するデータ評価の堅牢性について検討する。
特に,広く使われている確率的勾配降下の固有ランダム性は,既存のデータ値概念(例えば,シャプリー値と残欠誤差)を発生させ,異なるランにまたがって一貫性のないデータ値ランキングを生成する。
この課題に対処するために、私たちはまず、データ値の概念の堅牢性を計測できる形式的なフレームワークを示します。
協調ゲーム理論の文献から派生した値概念であるbanzhaf値は、mlアプリケーションによって引き起こされる重要な特性を満たす値概念のクラスである、すべての半値の最大ロバスト性を達成する。
本稿では,最大サンプル再利用(MSR)原理に基づいて,Banzhaf値を効率的に推定するアルゴリズムを提案する。
我々は,Banzhaf値近似に対する下界サンプル複雑性を導出し,MSRアルゴリズムのサンプル複雑性が下界値とほぼ一致することを示す。
評価の結果,Banzhaf値は,重み付きサンプルを用いた学習や雑音ラベル検出などの下流MLタスクにおいて,既存の半値に基づくデータ値概念よりも優れていることがわかった。
我々の研究は、基礎となるMLアルゴリズムが確率的である場合、Banzhaf値は、その計算上の優位性とデータ品質を堅牢に区別できる能力から、半値ベースのデータ値スキームに代わる有望な代替となることを示唆している。
関連論文リスト
- Is Data Valuation Learnable and Interpretable? [3.9325957466009203]
現在のデータ評価手法は、出力値の解釈可能性を無視している。
この研究は、データバリュエーションは学習可能か、解釈可能か、という重要な疑問に答えることを目的としている。
論文 参考訳(メタデータ) (2024-06-03T08:13:47Z) - EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。
機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文 参考訳(メタデータ) (2024-02-14T16:21:47Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - CS-Shapley: Class-wise Shapley Values for Data Valuation in
Classification [24.44357623723746]
CS-Shapleyは,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数である。
我々の結果は、Shapleyベースのデータバリュエーションは、異なるモデルにわたるアプリケーションに転送可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-13T03:32:33Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。