論文の概要: AI Model Disgorgement: Methods and Choices
- arxiv url: http://arxiv.org/abs/2304.03545v1
- Date: Fri, 7 Apr 2023 08:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 12:23:50.363104
- Title: AI Model Disgorgement: Methods and Choices
- Title(参考訳): AIモデルの分類:方法と選択
- Authors: Alessandro Achille, Michael Kearns, Carson Klingenberg, Stefano Soatto
- Abstract要約: 本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
- 参考スコア(独自算出の注目度): 127.54319351058167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Responsible use of data is an indispensable part of any machine learning (ML)
implementation. ML developers must carefully collect and curate their datasets,
and document their provenance. They must also make sure to respect intellectual
property rights, preserve individual privacy, and use data in an ethical way.
Over the past few years, ML models have significantly increased in size and
complexity. These models require a very large amount of data and compute
capacity to train, to the extent that any defects in the training corpus cannot
be trivially remedied by retraining the model from scratch. Despite
sophisticated controls on training data and a significant amount of effort
dedicated to ensuring that training corpora are properly composed, the sheer
volume of data required for the models makes it challenging to manually inspect
each datum comprising a training corpus. One potential fix for training corpus
data defects is model disgorgement -- the elimination of not just the
improperly used data, but also the effects of improperly used data on any
component of an ML model. Model disgorgement techniques can be used to address
a wide range of issues, such as reducing bias or toxicity, increasing fidelity,
and ensuring responsible usage of intellectual property. In this paper, we
introduce a taxonomy of possible disgorgement methods that are applicable to
modern ML systems. In particular, we investigate the meaning of "removing the
effects" of data in the trained model in a way that does not require retraining
from scratch.
- Abstract(参考訳): データの責任ある使用は、機械学習(ML)の実装に不可欠である。
ml開発者はデータセットの収集とキュレーションを慎重に行なわなければなりません。
また、知的財産権を尊重し、個人のプライバシーを保護し、倫理的な方法でデータを使用する必要がある。
過去数年間、MLモデルはサイズと複雑さが大幅に増加した。
これらのモデルはトレーニングに非常に大量のデータと計算能力を必要とし、トレーニングコーパスの欠陥は、モデルをスクラッチから再トレーニングすることで自明に修復できない。
トレーニングデータに関する高度な制御と、トレーニングコーパスが適切に構成されていることを保証するための多大な努力にもかかわらず、モデルに必要なデータ量は、トレーニングコーパスを構成する各ダムを手動で検査することが困難である。
コーパスデータの欠陥をトレーニングするための潜在的な修正のひとつは、不適切な使用データだけでなく、不適切な使用データがmlモデルの任意のコンポーネントに与える影響の排除である。
モデルデゴージメント技術は、バイアスや毒性の低減、忠実度の向上、知的財産の責任ある使用の確保など、幅広い問題に対処するために使用することができる。
本稿では,現代のMLシステムに適用可能な分類法について紹介する。
特に,スクラッチから再トレーニングする必要のない方法で,トレーニングモデルにおけるデータの“影響の排除”の意味について検討する。
関連論文リスト
- The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Deep Regression Unlearning [6.884272840652062]
我々は、プライバシー攻撃に対して堅牢な、一般化された深層回帰学習手法を導入する。
我々は、コンピュータビジョン、自然言語処理、予測アプリケーションのための回帰学習実験を行う。
論文 参考訳(メタデータ) (2022-10-15T05:00:20Z) - Machine Unlearning Method Based On Projection Residual [23.24026891609028]
本稿ではニュートン法に基づく投射残差法を採用する。
主な目的は、線形回帰モデルとニューラルネットワークモデルという文脈で機械学習タスクを実装することである。
実験により, この手法は, モデル再学習に近いデータ削除において, より徹底的な手法であることが確認された。
論文 参考訳(メタデータ) (2022-09-30T07:29:55Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。
本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文 参考訳(メタデータ) (2021-06-29T05:05:58Z) - Approximate Data Deletion from Machine Learning Models [31.689174311625084]
トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。
線形モデルとロジスティックモデルに対する近似的削除法を提案する。
また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。
論文 参考訳(メタデータ) (2020-02-24T05:12:03Z) - Certified Data Removal from Machine Learning Models [79.91502073022602]
優れたデータスチュワードシップでは、データ所有者の要求でデータを削除する必要がある。
これにより、トレーニングデータに関する情報を暗黙的に格納するトレーニングされた機械学習モデルが、このような削除要求の影響を受けるべきかどうか、という疑問が提起される。
データを削除したモデルと、最初にデータを観測しなかったモデルとを区別できないという非常に強力な理論的保証である。
論文 参考訳(メタデータ) (2019-11-08T03:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。