論文の概要: PUMA: Performance Unchanged Model Augmentation for Training Data Removal
- arxiv url: http://arxiv.org/abs/2203.00846v1
- Date: Wed, 2 Mar 2022 03:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 05:33:26.453950
- Title: PUMA: Performance Unchanged Model Augmentation for Training Data Removal
- Title(参考訳): PUMA: トレーニングデータ除去のための非変更モデル拡張
- Authors: Ga Wu, Masoud Hashemi, Christopher Srinivasa
- Abstract要約: 本稿では,PUMA(Performance Unchanged Model Augmentation)と呼ばれる新しい手法を提案する。
提案するPUMAフレームワークは、各トレーニングデータポイントがモデルの一般化能力に与える影響を明示的にモデル化する。
PUMAは,モデルを再トレーニングすることなく,マーク付きトレーニングデータのユニークな特徴を効果的かつ効率的に除去できることを示す。
- 参考スコア(独自算出の注目度): 2.8468089304148445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preserving the performance of a trained model while removing unique
characteristics of marked training data points is challenging. Recent research
usually suggests retraining a model from scratch with remaining training data
or refining the model by reverting the model optimization on the marked data
points. Unfortunately, aside from their computational inefficiency, those
approaches inevitably hurt the resulting model's generalization ability since
they remove not only unique characteristics but also discard shared (and
possibly contributive) information. To address the performance degradation
problem, this paper presents a novel approach called Performance Unchanged
Model Augmentation~(PUMA). The proposed PUMA framework explicitly models the
influence of each training data point on the model's generalization ability
with respect to various performance criteria. It then complements the negative
impact of removing marked data by reweighting the remaining data optimally. To
demonstrate the effectiveness of the PUMA framework, we compared it with
multiple state-of-the-art data removal techniques in the experiments, where we
show the PUMA can effectively and efficiently remove the unique characteristics
of marked training data without retraining the model that can 1) fool a
membership attack, and 2) resist performance degradation. In addition, as PUMA
estimates the data importance during its operation, we show it could serve to
debug mislabelled data points more efficiently than existing approaches.
- Abstract(参考訳): マークされたトレーニングデータポイントのユニークな特性を取り除きながら、トレーニングモデルのパフォーマンスを維持することは困難である。
最近の研究は、通常、スクラッチからモデルを再トレーニングすることや、マークされたデータポイントのモデル最適化を反転させることによってモデルを洗練することを提案する。
残念なことに、それらの計算の非効率性を除いて、これらのアプローチは、固有の特性だけでなく、共有(およびおそらくは貢献)の情報も取り除いたため、結果のモデルの一般化能力を必然的に損なう。
本稿では, 性能劣化問題に対処するため, Performance Unchanged Model Augmentation~(PUMA)と呼ばれる新しい手法を提案する。
提案するPUMAフレームワークは,各トレーニングデータポイントが各種性能基準に対するモデルの一般化能力に与える影響を明示的にモデル化する。
そして、残りのデータを最適に重み付けすることで、マークされたデータを除去する負の影響を補完する。
PUMAフレームワークの有効性を実証するため、実験において複数の最先端データ除去手法と比較し、PUMAがマーク付きトレーニングデータのユニークな特性を、モデルを再訓練することなく効果的に効率的に除去できることを示した。
1)会員攻撃を愚かにし、
2) 性能劣化を抑える。
さらに,PUMAが運用中のデータ重要度を推定することにより,既存の手法よりも誤りのあるデータポイントのデバッグに有効であることを示す。
関連論文リスト
- Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。
LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。
本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文 参考訳(メタデータ) (2024-11-13T08:56:35Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Parameter Matching Attack: Enhancing Practical Applicability of Availability Attacks [8.225819874406238]
PMA(Matching Attack)と呼ばれる新しいアベイラビリティー・アプローチを提案する。
PMAは、データの一部を摂動できる場合に機能する最初のアベイラビリティ攻撃である。
PMAは既存の手法よりも優れており、トレーニングデータの一部が摂動した場合に顕著なモデル性能劣化を達成できることを示す。
論文 参考訳(メタデータ) (2024-07-02T17:15:12Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Estimating Model Performance Under Covariate Shift Without Labels [9.804680621164168]
ラベルなしデータの分類モデルを評価するために,確率的適応性能推定(PAPE)を導入する。
PAPEは他の評価手法よりも正確な性能推定を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:29:30Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Recommendation Unlearning via Influence Function [42.4931807753579]
本稿では,新しいインフルエンス関数に基づく推薦アンラーニング(IFRU, Recommendation Unlearning)フレームワークを提案する。
IFRUは、フルリトレーニングに匹敵するレコメンデーションパフォーマンスを持つリトレーニングベースの手法と比較して、250倍以上のアクセラレーションを実現している。
論文 参考訳(メタデータ) (2023-07-05T09:42:51Z) - Maintaining Stability and Plasticity for Predictive Churn Reduction [8.971668467496055]
我々は,累積モデル組合せ (AMC) という解を提案する。
AMCは一般的な手法であり、モデルやデータ特性に応じてそれぞれ独自の利点を持ついくつかの事例を提案する。
論文 参考訳(メタデータ) (2023-05-06T20:56:20Z) - Exposing Shallow Heuristics of Relation Extraction Models with Challenge
Data [49.378860065474875]
我々は、TACREDで訓練されたSOTA関係抽出(RE)モデルの故障モードを同定する。
トレーニングの例として、いくつかの課題データを追加することで、モデルのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-07T21:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。