Fugu-MT 論文翻訳(概要): Markov Chain Monte Carlo-Based Machine Unlearning: Unlearning What Needs to be Forgotten

論文の概要: Markov Chain Monte Carlo-Based Machine Unlearning: Unlearning What Needs to be Forgotten

arxiv url: http://arxiv.org/abs/2202.13585v1
Date: Mon, 28 Feb 2022 07:14:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-01 17:43:03.303612
Title: Markov Chain Monte Carlo-Based Machine Unlearning: Unlearning What Needs to be Forgotten
Title（参考訳）: markov chain monte carlo-based machine unlearning - 忘れるべきことの学習
Authors: Quoc Phong Nguyen, Ryutaro Oikawa, Dinil Mon Divakaran, Mun Choon Chan, Bryan Kian Hsiang Low
Abstract要約: 本稿ではマルコフ連鎖モンテカルロに基づく機械学習(MCU)アルゴリズムを提案する。 MCUは、トレーニングデータセットのサブセットからトレーニングされたモデルを効率的かつ効率的に解放するのに役立つ。実世界のフィッシングおよび糖尿病データセットにおけるMCUアルゴリズムの性能を実証的に評価した。
参考スコア（独自算出の注目度）: 31.624662214658446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the use of machine learning (ML) models is becoming increasingly popular in many real-world applications, there are practical challenges that need to be addressed for model maintenance. One such challenge is to 'undo' the effect of a specific subset of dataset used for training a model. This specific subset may contain malicious or adversarial data injected by an attacker, which affects the model performance. Another reason may be the need for a service provider to remove data pertaining to a specific user to respect the user's privacy. In both cases, the problem is to 'unlearn' a specific subset of the training data from a trained model without incurring the costly procedure of retraining the whole model from scratch. Towards this goal, this paper presents a Markov chain Monte Carlo-based machine unlearning (MCU) algorithm. MCU helps to effectively and efficiently unlearn a trained model from subsets of training dataset. Furthermore, we show that with MCU, we are able to explain the effect of a subset of a training dataset on the model prediction. Thus, MCU is useful for examining subsets of data to identify the adversarial data to be removed. Similarly, MCU can be used to erase the lineage of a user's personal data from trained ML models, thus upholding a user's "right to be forgotten". We empirically evaluate the performance of our proposed MCU algorithm on real-world phishing and diabetes datasets. Results show that MCU can achieve a desirable performance by efficiently removing the effect of a subset of training dataset and outperform an existing algorithm that utilizes the remaining dataset.
Abstract（参考訳）: 機械学習(ML)モデルの使用は多くの現実世界のアプリケーションで人気が高まっているため、モデルのメンテナンスに対処する必要がある実践的な課題がある。そのような課題の1つは、モデルのトレーニングに使用されるデータセットの特定のサブセットの効果を「解き放つ」ことである。この特定のサブセットには、攻撃者が注入した悪意のあるデータや敵対的なデータが含まれ、モデルのパフォーマンスに影響する可能性がある。もうひとつの理由は、サービスプロバイダがユーザのプライバシを尊重するために、特定のユーザに関連するデータを削除する必要があることだ。どちらの場合でも、モデル全体をゼロから再トレーニングするコストのかかる手順を伴わずに、トレーニングされたモデルからトレーニングデータの特定のサブセットを解放する。本研究の目的は,マルコフ連鎖モンテカルロに基づく機械学習(MCU)アルゴリズムを提案することである。 MCUは、トレーニングデータセットのサブセットからトレーニングされたモデルを効率的かつ効率的に解放するのに役立つ。さらに,mcuでは,トレーニングデータセットのサブセットがモデル予測に与える影響を説明できることを示した。したがって、MCUは削除すべき敵データを特定するためにデータのサブセットを調べるのに有用である。同様に、MCUは訓練されたMLモデルからユーザーの個人情報の系統を消去するために使用することができ、それによってユーザの「忘れられる権利」を維持できる。実世界のフィッシングおよび糖尿病データセットにおけるMCUアルゴリズムの性能を実証的に評価した。その結果、MCUはトレーニングデータセットのサブセットの効果を効率よく除去し、残りのデータセットを利用する既存のアルゴリズムより優れていることを示す。

関連論文リスト

Learning to Detect Language Model Training Data via Active Reconstruction [65.4791582049743]
textbfActive Data Reconstruction Attack (ADRA)を紹介する。 ADRAはトレーニングを通じて与えられたテキストを再構築するモデルを誘導する。我々のアルゴリズムは、事前学習、後訓練、蒸留データの検出において、既存のMIAよりも一貫して優れています。
論文参考訳（メタデータ） (2026-02-22T03:20:06Z)
Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文参考訳（メタデータ） (2025-07-06T03:08:49Z)
Forget-MI: Machine Unlearning for Forgetting Multimodal Information in Healthcare Settings [5.200386658850142]
Forget-MIはマルチモーダル医療データのための新しい機械学習手法である。テストデータセットのパフォーマンス、テストデータセットのパフォーマンス、およびメンバーシップ推論攻撃(MIA)を用いて結果を評価する。提案手法はMIAを0.202削減し,AUCとF1のスコアを0.221と0.305に下げる。
論文参考訳（メタデータ） (2025-06-29T08:53:23Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文参考訳（メタデータ） (2024-10-30T17:20:10Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文参考訳（メタデータ） (2024-03-24T17:33:22Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Machine Unlearning for Causal Inference [0.6621714555125157]
モデルが与えられたユーザに関する情報(マシンアンラーニング)の学習/取得の一部を忘れることが重要である。本稿では、因果推論のための機械学習の概念、特に確率スコアマッチングと治療効果推定について紹介する。この研究で使用されるデータセットは、ジョブトレーニングプログラムの有効性を評価するために広く使用されているデータセットであるLalondeデータセットである。
論文参考訳（メタデータ） (2023-08-24T17:27:01Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文参考訳（メタデータ） (2022-01-14T19:16:09Z)
Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文参考訳（メタデータ） (2021-08-26T04:42:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。