論文の概要: Understanding Fine-tuning in Approximate Unlearning: A Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2410.03833v2
- Date: Fri, 07 Feb 2025 22:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:06.323367
- Title: Understanding Fine-tuning in Approximate Unlearning: A Theoretical Perspective
- Title(参考訳): 近似アンラーニングにおける微調整の理解 : 理論的展望
- Authors: Meng Ding, Rohan Sharma, Changyou Chen, Jinhui Xu, Kaiyi Ji,
- Abstract要約: ファインチューニング(FT)手法は、未学習を近似するための基本的なアプローチの1つとなっている。
本稿では,線形回帰フレームワーク内での機械学習のためのFT法に関する最初の理論的解析を行う。
本稿では,残りのデータセットに基づいて重量分布マップを構築するRBM(Retention-Based Masking)戦略を提案する。
- 参考スコア(独自算出の注目度): 39.958103832214135
- License:
- Abstract: Machine Unlearning has emerged as a significant area of research, focusing on `removing' specific subsets of data from a trained model. Fine-tuning (FT) methods have become one of the fundamental approaches for approximating unlearning, as they effectively retain model performance. However, it is consistently observed that naive FT methods struggle to forget the targeted data. In this paper, we present the first theoretical analysis of FT methods for machine unlearning within a linear regression framework, providing a deeper exploration of this phenomenon. Our analysis reveals that while FT models can achieve zero remaining loss, they fail to forget the forgetting data, as the pretrained model retains its influence and the fine-tuning process does not adequately mitigate it. To address this, we propose a novel Retention-Based Masking (RBM) strategy that constructs a weight saliency map based on the remaining dataset, unlike existing methods that focus on the forgetting dataset. Our theoretical analysis demonstrates that RBM not only significantly improves unlearning accuracy (UA) but also ensures higher retaining accuracy (RA) by preserving overlapping features shared between the forgetting and remaining datasets. Experiments on synthetic and real-world datasets validate our theoretical insights, showing that RBM outperforms existing masking approaches in balancing UA, RA, and disparity metrics.
- Abstract(参考訳): Machine Unlearningは、トレーニングされたモデルからデータの特定のサブセットを削除することに焦点を当てた、重要な研究領域として登場した。
ファインチューニング(FT)手法は、モデル性能を効果的に維持するため、未学習を近似するための基本的なアプローチの1つとなっている。
しかし,本手法は対象データを忘れることに苦慮している。
本稿では,線形回帰フレームワーク内でのFT手法の理論的解析を行い,この現象を深く研究する。
解析の結果,FTモデルが残余損失をゼロにできるが,事前学習したモデルが影響を保ち,微調整プロセスが適切に軽減できないため,忘れるデータを忘れることができないことがわかった。
そこで本稿では,残りのデータセットをベースとした重み値マップを構築するRBM(Retention-Based Masking)戦略を提案する。
我々の理論的分析は、RBMが未学習の精度(UA)を大幅に向上するだけでなく、忘れたデータセット間で共有される重なり合う特徴を保ちながら、高い保持精度(RA)を確保することを実証している。
合成および実世界のデータセットの実験は、我々の理論的洞察を検証し、RAMがUA、RA、異質のメトリクスのバランスをとる際に、既存のマスキングアプローチより優れていることを示した。
関連論文リスト
- Physics-Driven Self-Supervised Deep Learning for Free-Surface Multiple Elimination [3.3244277562036095]
物理物理学において、ディープラーニング(Deep Learning, DL)法は、一般に大量の高品質ラベル付きデータからの教師付き学習に基づいている。
本稿では,損失計算に基礎となる物理を組み込んで,自由表面多重自由波動場をフルウェーブフィールドから効果的にパラメータ化する方法を提案する。
これにより、根拠となる真理データを示すことなく、高品質な推定値が得られる。
論文 参考訳(メタデータ) (2025-01-26T15:37:23Z) - Distribution Learning for Molecular Regression [10.96062816455682]
Distributional Mixture of Experts (DMoE) はモデルに依存しない、データに依存しない回帰法である。
分子特性予測データセットを用いたDMoEの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-30T00:21:51Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Bias-inducing geometries: an exactly solvable data model with fairness implications [12.532003449620607]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。