論文の概要: The Measure of Deception: An Analysis of Data Forging in Machine Unlearning
- arxiv url: http://arxiv.org/abs/2509.05865v1
- Date: Sat, 06 Sep 2025 23:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.745434
- Title: The Measure of Deception: An Analysis of Data Forging in Machine Unlearning
- Title(参考訳): 嘘の尺度:機械学習におけるデータ鍛造の分析
- Authors: Rishabh Dixit, Yuan Hui, Rayan Saab,
- Abstract要約: アンラーニングを検証する上で重要な課題は鍛造である。
未学習を検証する上で重要な課題は、ターゲットポイントの境界を模倣するデータを偽造し、逆向きに作成することだ。
敵の鍛造は基本的に限定的であり, 偽の未学習クレームは原則として検出可能であることを示す。
- 参考スコア(独自算出の注目度): 2.141079906482723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by privacy regulations and the need to mitigate the effects of harmful data, machine unlearning seeks to modify trained models so that they effectively ``forget'' designated data. A key challenge in verifying unlearning is forging -- adversarially crafting data that mimics the gradient of a target point, thereby creating the appearance of unlearning without actually removing information. To capture this phenomenon, we consider the collection of data points whose gradients approximate a target gradient within tolerance $\epsilon$ -- which we call an $\epsilon$-forging set -- and develop a framework for its analysis. For linear regression and one-layer neural networks, we show that the Lebesgue measure of this set is small. It scales on the order of $\epsilon$, and when $\epsilon$ is small enough, $\epsilon^d$. More generally, under mild regularity assumptions, we prove that the forging set measure decays as $\epsilon^{(d-r)/2}$, where $d$ is the data dimension and $r<d$ is the nullity of a variation matrix defined by the model gradients. Extensions to batch SGD and almost-everywhere smooth loss functions yield the same asymptotic scaling. In addition, we establish probability bounds showing that, under non-degenerate data distributions, the likelihood of randomly sampling a forging point is vanishingly small. These results provide evidence that adversarial forging is fundamentally limited and that false unlearning claims can, in principle, be detected.
- Abstract(参考訳): プライバシ規制と有害なデータの影響を軽減する必要性によって動機づけられた機械学習は、トレーニングされたモデルを変更して、効果的に 'forget' 指定されたデータにしようと試みている。
未学習を検証する上で重要な課題は、鍛造(forging) – ターゲットポイントの勾配を模倣したデータを逆向きに作成することで、情報を取り除かずに非学習の出現を発生させる。この現象を捉えるために、勾配が許容範囲内のターゲット勾配に近似するデータポイントのコレクションを、$\epsilon$-forging set – と呼ぶもので、その分析のためのフレームワークを開発する。
線形回帰と一層ニューラルネットワークの場合、この集合のルベーグ測度は小さい。
これは$\epsilon$の順番でスケールし、$\epsilon$が十分小さい場合は$\epsilon^d$である。
より一般に、穏やかな正則性仮定の下では、鍛造集合測度は $\epsilon^{(d-r)/2}$ として崩壊し、$d$ はデータ次元、$r<d$ はモデル勾配によって定義される変分行列の零性である。
バッチSGDおよびほぼすべてのスムーズな損失関数への拡張は、同じ漸近的スケーリングをもたらす。
さらに、非退化データ分布において、鍛造点をランダムにサンプリングする確率が著しく小さいことを示す確率境界を確立する。
これらの結果は、敵の鍛造が根本的に制限され、誤った未学習のクレームが原則として検出できることを示す。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Causality Pursuit from Heterogeneous Environments via Neural Adversarial Invariance Learning [12.947265104477237]
データから因果関係を抽出することは、科学的発見、治療介入、伝達学習における根本的な問題である。
本稿では,複数の環境における回帰モデルにおける非パラメトリック不変性と因果学習に対処するアルゴリズムを提案する。
提案したFocused Adrial Invariant Regularizationフレームワークは、逆検定により回帰モデルを予測不変解へ向ける革新的なミニマックス最適化手法を利用する。
論文 参考訳(メタデータ) (2024-05-07T23:37:40Z) - Certified Minimax Unlearning with Generalization Rates and Deletion Capacity [28.998771902033003]
ミニマックスモデルに対する$(epsilon,delta)$-certified machine unlearningの問題について検討する。
我々は,全ヘッセン語に基づく完全更新のための,新しいミニマックスアンラーニングステップを開発する。
論文 参考訳(メタデータ) (2023-12-16T06:03:23Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - On the Generalization for Transfer Learning: An Information-Theoretic Analysis [8.102199960821165]
一般化誤差と転帰学習アルゴリズムの過大なリスクを情報理論で解析する。
我々の結果は、おそらく予想通り、Kulback-Leibler divergenceD(mu|mu')$がキャラクタリゼーションにおいて重要な役割を果たすことを示唆している。
次に、$phi$-divergence や Wasserstein 距離といった他の発散点と結びついた相互情報を一般化する。
論文 参考訳(メタデータ) (2022-07-12T08:20:41Z) - A Statistical Learning View of Simple Kriging [0.0]
統計的学習の観点から,簡単なKrigingタスクを解析する。
目標は、最小2次リスクで他の場所にある未知の値を予測することである。
我々は、真の最小化を模倣するプラグイン予測則の過剰なリスクに対して、$O_mathbbP (1/sqrtn)$の非漸近境界を証明した。
論文 参考訳(メタデータ) (2022-02-15T12:46:43Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。