論文の概要: Memorization in NLP Fine-tuning Methods
- arxiv url: http://arxiv.org/abs/2205.12506v1
- Date: Wed, 25 May 2022 05:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 15:30:58.669953
- Title: Memorization in NLP Fine-tuning Methods
- Title(参考訳): NLP微調整法における記憶
- Authors: Fatemehsadat Mireshghallah, Archit Uniyal, Tianhao Wang, David Evans,
Taylor Berg-Kirkpatrick
- Abstract要約: 我々は,メンバシップ推論と抽出攻撃を用いた微調整手法の暗記を経験的に研究した。
モデルヘッドの微調整は攻撃に対する最も感受性が高いが、細調整された小さなアダプタは既知の抽出攻撃に対する脆弱さが低いようである。
- 参考スコア(独自算出の注目度): 34.66743495192471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are shown to present privacy risks through memorization
of training data, and several recent works have studied such risks for the
pre-training phase. Little attention, however, has been given to the
fine-tuning phase and it is not well understood how different fine-tuning
methods (such as fine-tuning the full model, the model head, and adapter)
compare in terms of memorization risk. This presents increasing concern as the
"pre-train and fine-tune" paradigm proliferates. In this paper, we empirically
study memorization of fine-tuning methods using membership inference and
extraction attacks, and show that their susceptibility to attacks is very
different. We observe that fine-tuning the head of the model has the highest
susceptibility to attacks, whereas fine-tuning smaller adapters appears to be
less vulnerable to known extraction attacks.
- Abstract(参考訳): 大規模言語モデルでは,トレーニングデータの記憶を通じて,プライバシのリスクを示すことが示されている。
しかし、微調整フェーズにはほとんど注意が払われておらず、異なる微調整手法(フルモデル、モデルヘッド、アダプタなど)が記憶リスクの観点からどのように比較されるかはよく分かっていない。
これは、"pre-train and fine-tune"パラダイムが普及するにつれて、懸念が高まっている。
本稿では,メンバシップ推論と抽出攻撃を用いた微調整手法の記憶を実験的に検討し,その攻撃感受性が極めて異なることを示す。
我々は,モデルの頭部の微調整が最も攻撃感受性が高いのに対し,小型のアダプタの微調整は既知の抽出攻撃に対する脆弱性が少ないことを観察する。
関連論文リスト
- Recovering the Pre-Fine-Tuning Weights of Generative Models [48.996830072800336]
そこで本研究では,いくつかの低ランク(LoRA)微調整モデルを用いて,プレファインチューニングモデルの重みを復元する手法を提案する。
このアプローチでは、パーソナライズされたStable DiffusionやアライメントされたMistralといった大規模モデルに対して、この新しい脆弱性を活用しています。
論文 参考訳(メタデータ) (2024-02-15T18:59:02Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Mixed Precision Quantization to Tackle Gradient Leakage Attacks in
Federated Learning [1.7205106391379026]
フェデレートラーニング(FL)は、明示的なデータ共有を必要とせずに、多数の参加者の間で協調的なモデル構築を可能にする。
このアプローチは、プライバシ推論攻撃を適用した際の脆弱性を示す。
特に、モデル勾配からセンシティブなデータを取得する上で高い成功率を持つ勾配リーク攻撃の場合、FLモデルは、その固有のアーキテクチャにおける通信の存在により、高いリスクを負う。
論文 参考訳(メタデータ) (2022-10-22T04:24:32Z) - Parameters or Privacy: A Provable Tradeoff Between Overparameterization
and Membership Inference [29.743945643424553]
オーバーパラメータ化モデルは、トレーニングデータ(トレーニングデータではゼロエラー)を記憶するように訓練された場合でも、うまく(テストデータでは小さなエラー)一般化する。
このことが、パラメータ化されたモデル(例えばディープラーニング)をますます超越する武器競争に繋がった。
論文 参考訳(メタデータ) (2022-02-02T19:00:21Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - Adversarial Learning with Cost-Sensitive Classes [7.6596177815175475]
いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。
本論文では,コストに敏感な分類と対比学習を組み合わせて,保護クラスと非保護クラスを区別できるモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-29T03:15:40Z) - A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D
Models [3.9962751777898955]
ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者がターゲットとしている。
非連続的深層モデルは、いまだに敵対的な攻撃に対して頑健ではない。
本稿では,特徴を特定のマージン下に置くことによって予測を容易にする新しい目的/損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-08T20:51:43Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Single-step Adversarial training with Dropout Scheduling [59.50324605982158]
単段階逆行訓練法を用いて学習したモデルは、単段階逆行の発生を防止するために学習する。
提案手法を用いて訓練されたモデルは, 単段階攻撃と多段階攻撃の両方に対して堅牢である。
論文 参考訳(メタデータ) (2020-04-18T14:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。