論文の概要: Parameters or Privacy: A Provable Tradeoff Between Overparameterization
and Membership Inference
- arxiv url: http://arxiv.org/abs/2202.01243v1
- Date: Wed, 2 Feb 2022 19:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:30:26.299971
- Title: Parameters or Privacy: A Provable Tradeoff Between Overparameterization
and Membership Inference
- Title(参考訳): パラメータとプライバシ - オーバーパラメータ化とメンバシップ推論のトレードオフ
- Authors: Jasper Tan, Blake Mason, Hamid Javadi, Richard G. Baraniuk
- Abstract要約: オーバーパラメータ化モデルは、トレーニングデータ(トレーニングデータではゼロエラー)を記憶するように訓練された場合でも、うまく(テストデータでは小さなエラー)一般化する。
このことが、パラメータ化されたモデル(例えばディープラーニング)をますます超越する武器競争に繋がった。
- 参考スコア(独自算出の注目度): 29.743945643424553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A surprising phenomenon in modern machine learning is the ability of a highly
overparameterized model to generalize well (small error on the test data) even
when it is trained to memorize the training data (zero error on the training
data). This has led to an arms race towards increasingly overparameterized
models (c.f., deep learning). In this paper, we study an underexplored hidden
cost of overparameterization: the fact that overparameterized models are more
vulnerable to privacy attacks, in particular the membership inference attack
that predicts the (potentially sensitive) examples used to train a model. We
significantly extend the relatively few empirical results on this problem by
theoretically proving for an overparameterized linear regression model with
Gaussian data that the membership inference vulnerability increases with the
number of parameters. Moreover, a range of empirical studies indicates that
more complex, nonlinear models exhibit the same behavior. Finally, we study
different methods for mitigating such attacks in the overparameterized regime,
such as noise addition and regularization, and conclude that simply reducing
the parameters of an overparameterized model is an effective strategy to
protect it from membership inference without greatly decreasing its
generalization error.
- Abstract(参考訳): 現代の機械学習における驚くべき現象は、トレーニングデータ(トレーニングデータにゼロエラー)を記憶するように訓練された場合でも、高度に過小評価されたモデルがうまく一般化する能力(テストデータに小さな誤差)である。
これにより、過剰パラメータモデル(c.f., deep learning)への競争が激化している。
本稿では,過小パラメータモデルがプライバシ攻撃,特にモデルトレーニングに使用される(潜在的に敏感な)例を予測するメンバシップ推論攻撃に対して,過小パラメータモデルがより脆弱であるという事実について,過小パラメータ化の未熟な隠れコストについて検討する。
我々は,ガウスデータを持つ過パラメータ線形回帰モデルに対して,パラメータ数によってメンバシップ推論の脆弱性が増加することを理論的に証明することにより,この問題に対する経験的結果の相対的に少数の拡張を行った。
さらに、実験的な研究の範囲は、より複雑な非線形モデルが同じ挙動を示すことを示している。
最後に,ノイズ付加や正規化などの過パラメータ化体制において,このような攻撃を緩和するための様々な手法について検討し,過パラメータ化モデルのパラメータを単純に減らすことは,一般化誤差を大幅に減少させることなく,メンバーシップ推論から保護するための効果的な戦略であると結論付けた。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Better Membership Inference Privacy Measurement through Discrepancy [25.48677069802298]
本稿では,新たな経験的プライバシ指標を提案する。
我々は,この指標が複数のモデルのトレーニングを伴わず,大規模なイメージネット分類モデルに適用可能であることを示し,より最新で洗練されたトレーニングレシピでトレーニングされたモデルの既存の指標よりも有利であることを示した。
論文 参考訳(メタデータ) (2024-05-24T01:33:22Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-06-17T07:50:22Z) - A Blessing of Dimensionality in Membership Inference through
Regularization [29.08230123469755]
モデルのパラメータ数がいかにプライバシーとユーティリティのトレードオフを引き起こすかを示す。
次に、適切な一般化正規化と組み合わせることで、モデルのパラメータの数を増やすことで、そのプライバシと性能の両方を実際に増加させることができることを示す。
論文 参考訳(メタデータ) (2022-05-27T15:44:00Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。