論文の概要: DeRDaVa: Deletion-Robust Data Valuation for Machine Learning
- arxiv url: http://arxiv.org/abs/2312.11413v2
- Date: Sun, 21 Jan 2024 11:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:55:02.325977
- Title: DeRDaVa: Deletion-Robust Data Valuation for Machine Learning
- Title(参考訳): DeRDaVa: マシンラーニングのための削除ロバストデータ評価
- Authors: Xiao Tian, Rachael Hwee Ling Sim, Jue Fan, Bryan Kian Hsiang Low
- Abstract要約: データアセスメントフレームワークであるDeRDaVaを前もって使用して、予測データ削除後のロバストなモデルパフォーマンスの保存に対する各データソースの貢献を評価することを提案する。
DeRDaVaは効率よく近似でき、削除される可能性の低いデータに高い値を割り当てる。
- 参考スコア(独自算出の注目度): 33.824419874670625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation is concerned with determining a fair valuation of data from
data sources to compensate them or to identify training examples that are the
most or least useful for predictions. With the rising interest in personal data
ownership and data protection regulations, model owners will likely have to
fulfil more data deletion requests. This raises issues that have not been
addressed by existing works: Are the data valuation scores still fair with
deletions? Must the scores be expensively recomputed? The answer is no. To
avoid recomputations, we propose using our data valuation framework DeRDaVa
upfront for valuing each data source's contribution to preserving robust model
performance after anticipated data deletions. DeRDaVa can be efficiently
approximated and will assign higher values to data that are more useful or less
likely to be deleted. We further generalize DeRDaVa to Risk-DeRDaVa to cater to
risk-averse/seeking model owners who are concerned with the worst/best-cases
model utility. We also empirically demonstrate the practicality of our
solutions.
- Abstract(参考訳): データバリュエーションは、データソースからのデータの公正なバリュエーションを決定して補正するか、あるいは予測に最も、または最も有用でないトレーニング例を特定することである。
個人データ所有とデータ保護に関する規制への関心が高まる中、モデル所有者はより多くのデータ削除要求を強制する必要がある。
これは、既存の作業で対処されていない問題を引き起こす。 データ評価スコアは、削除と同等か?
スコアは高価な再計算が必要か?
答えはノーです。
再計算を避けるために,我々はデータバリュエーションフレームワーク derdava upfront を用いて,予測したデータ削除後のロバストなモデル性能を維持するための各データソースの貢献度を評価する。
derdavaは効率的に近似することができ、より有用で削除されやすいデータに高い値を割り当てる。
DeRDaVaをリスク-DeRDaVaに一般化し、最悪の/ベストケースモデルユーティリティに関心のあるリスク/リバース/サーキングモデルオーナーに対処する。
ソリューションの実用性も実証的に実証しています。
関連論文リスト
- Concerned with Data Contamination? Assessing Countermeasures in Code Language Model [8.81329299090667]
SEタスクのコード言語モデル(CLM)の機能を活用するために、さまざまなテクニックが提案されている。
データ汚染の脅威を軽減するために、さまざまな対策が提案されている。
汚染データと浄化データに対するCLMの性能差を調べた結果,これらの対策の効果について検討した。
論文 参考訳(メタデータ) (2024-03-25T16:10:25Z) - Leveraging variational autoencoders for multiple data imputation [0.5156484100374059]
本稿では,複数の計算手法を用いて,データ欠落を考慮に入れた深部モデル,すなわち変分オートエンコーダ(VAE)について検討する。
VAEは、過小評価と過信な計算によって、欠落したデータの経験的カバレッジを低くすることがわかった。
これを克服するために、一般化されたベイズフレームワークから見た$beta$-VAEsを用いて、モデルの誤特定に対して堅牢性を提供する。
論文 参考訳(メタデータ) (2022-09-30T08:58:43Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Machine unlearning via GAN [2.406359246841227]
機械学習モデル、特にディープラーニングモデルは、トレーニングデータに関する情報を意図せずに記憶することができる。
本稿では,深層モデルにおけるデータ削除のためのGANアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:28:57Z) - Data Appraisal Without Data Sharing [28.41079503636652]
セキュアなマルチパーティ計算によるデータ共有を必要としない手法を開発した。
実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-11T15:45:19Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - Approximate Data Deletion from Machine Learning Models [31.689174311625084]
トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。
線形モデルとロジスティックモデルに対する近似的削除法を提案する。
また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。
論文 参考訳(メタデータ) (2020-02-24T05:12:03Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。