論文の概要: Recovering the Pre-Fine-Tuning Weights of Generative Models
- arxiv url: http://arxiv.org/abs/2402.10208v2
- Date: Mon, 1 Jul 2024 12:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 15:08:40.102960
- Title: Recovering the Pre-Fine-Tuning Weights of Generative Models
- Title(参考訳): 生成モデルの事前調整重量の復元
- Authors: Eliahu Horwitz, Jonathan Kahana, Yedid Hoshen,
- Abstract要約: そこで本研究では,いくつかの低ランク(LoRA)微調整モデルを用いて,プレファインチューニングモデルの重みを復元する手法を提案する。
このアプローチでは、パーソナライズされたStable DiffusionやアライメントされたMistralといった大規模モデルに対して、この新しい脆弱性を活用しています。
- 参考スコア(独自算出の注目度): 43.59537275572178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant paradigm in generative modeling consists of two steps: i) pre-training on a large-scale but unsafe dataset, ii) aligning the pre-trained model with human values via fine-tuning. This practice is considered safe, as no current method can recover the unsafe, pre-fine-tuning model weights. In this paper, we demonstrate that this assumption is often false. Concretely, we present Spectral DeTuning, a method that can recover the weights of the pre-fine-tuning model using a few low-rank (LoRA) fine-tuned models. In contrast to previous attacks that attempt to recover pre-fine-tuning capabilities, our method aims to recover the exact pre-fine-tuning weights. Our approach exploits this new vulnerability against large-scale models such as a personalized Stable Diffusion and an aligned Mistral.
- Abstract(参考訳): 生成モデリングにおける支配的なパラダイムは2つのステップから構成される。
一 大規模かつ安全でないデータセットの事前訓練
二 訓練済みモデルを微調整により人的価値と整合させること。
このプラクティスは、現在の方法では、安全でない、調整済みのモデルの重みを回復できないため、安全であると考えられている。
本稿では,この仮定がしばしば誤りであることを示す。
具体的には、いくつかの低ランク(LoRA)微調整モデルを用いて、プリファインチューニングモデルの重みを復元できるSpectral DeTuningを提案する。
従来のプリファインチューニング能力を回復しようとする攻撃とは対照的に,本手法はプリファインチューニングの正確な重みを回復することを目的としている。
このアプローチでは、パーソナライズされたStable DiffusionやアライメントされたMistralといった大規模モデルに対して、この新しい脆弱性を活用しています。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Robust Fine-tuning for Pre-trained 3D Point Cloud Models [15.404188754049317]
本稿では,事前学習した3次元点雲モデルに対して,ロバストな微調整法を提案する。
我々は、現在の微調整手法の限界とロバストモデル学習の課題を強調した。
モデルロバスト性向上におけるWiSE-FT-LPの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-25T08:52:25Z) - Bounding Reconstruction Attack Success of Adversaries Without Data
Priors [53.41619942066895]
機械学習(ML)モデルに対する再構成攻撃は、機密データの漏洩の強いリスクをもたらす。
本研究では,現実的な対角的環境下での再建成功に関する公式な上限を提供する。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - MockingBERT: A Method for Retroactively Adding Resilience to NLP Models [4.584774276587428]
そこで本稿では,トランスフォーマーベースNLPモデルに再帰的にレジリエンスを付加する手法を提案する。
これは、元のNLPモデルのトレーニングを必要とせずに実現できる。
また,逆方向のミススペルを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-08-21T16:02:01Z) - Memorization in NLP Fine-tuning Methods [34.66743495192471]
我々は,メンバシップ推論と抽出攻撃を用いた微調整手法の暗記を経験的に研究した。
モデルヘッドの微調整は攻撃に対する最も感受性が高いが、細調整された小さなアダプタは既知の抽出攻撃に対する脆弱さが低いようである。
論文 参考訳(メタデータ) (2022-05-25T05:49:31Z) - Bidirectional Model-based Policy Optimization [30.732572976324516]
モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを活用する。
本稿では,前方モデル予測における精度への依存を減らすために,後方ダイナミクスモデルを構築することを提案する。
本稿では,二方向性モデルベースポリシー (BMPO) と呼ばれる新しい手法を開発し,前向きモデルと後向きモデルの両方を用いて,政策最適化のための短い分岐ロールアウトを生成する。
論文 参考訳(メタデータ) (2020-07-04T03:34:09Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。