論文の概要: Dataset Size Recovery from LoRA Weights
- arxiv url: http://arxiv.org/abs/2406.19395v1
- Date: Thu, 27 Jun 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:09:01.935385
- Title: Dataset Size Recovery from LoRA Weights
- Title(参考訳): LoRA重みからのデータセットサイズ復元
- Authors: Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen,
- Abstract要約: DSiReは、モデルを微調整するために使用される画像の数を復元する方法である。
新しいベンチマークであるLoRA-WiSEをリリースし、2000以上のLoRAファインチューニングモデルから25,000以上のウェイトスナップショットを作成しました。
- 参考スコア(独自算出の注目度): 41.031813850749174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model inversion and membership inference attacks aim to reconstruct and verify the data which a model was trained on. However, they are not guaranteed to find all training samples as they do not know the size of the training set. In this paper, we introduce a new task: dataset size recovery, that aims to determine the number of samples used to train a model, directly from its weights. We then propose DSiRe, a method for recovering the number of images used to fine-tune a model, in the common case where fine-tuning uses LoRA. We discover that both the norm and the spectrum of the LoRA matrices are closely linked to the fine-tuning dataset size; we leverage this finding to propose a simple yet effective prediction algorithm. To evaluate dataset size recovery of LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models. Our best classifier can predict the number of fine-tuning images with a mean absolute error of 0.36 images, establishing the feasibility of this attack.
- Abstract(参考訳): モデルインバージョンとメンバシップ推論攻撃は、モデルがトレーニングしたデータを再構築し、検証することを目的としている。
しかし、トレーニングセットのサイズを知らないため、すべてのトレーニングサンプルを見つけることは保証されていない。
本稿では,モデルのトレーニングに使用するサンプルの数を,重みから直接決定することを目的とした,データセットサイズリカバリという新しいタスクを提案する。
そこで我々はDSiReを提案する。DSiReはモデルを微調整するために使用する画像の数を復元する手法で、微調整がLoRAを使用する場合が多い。
我々は、LoRA行列のノルムとスペクトルの両方が微調整データセットサイズと密接に関連していることを発見し、この発見を活用して、単純で効果的な予測アルゴリズムを提案する。
LoRA重量のデータセットサイズ回復を評価するため,2000種類以上のLoRA微調整モデルから25,000以上の重量スナップショットからなる新しいベンチマークLoRA-WiSEを開発した。
我々の最良の分類器は、平均絶対誤差0.36の微調整画像の数を予測することができ、この攻撃の可能性を確立することができる。
関連論文リスト
- Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2024-03-18T07:33:56Z) - Non-Visible Light Data Synthesis and Application: A Case Study for
Synthetic Aperture Radar Imagery [30.590315753622132]
非可視光領域における安定拡散やイメージnのような大規模事前学習画像生成モデルの「隠れ」能力について検討する。
2段階の低ランク適応法を提案し,これを2LoRAと呼ぶ。
第1段階では、構造がSARと一致する空中視正則画像データを用いてモデルを適応させ、続いて第1段階からのベースモデルをSARモダリティデータによりさらに適応させる第2段階とする。
論文 参考訳(メタデータ) (2023-11-29T09:48:01Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Robust Weight Signatures: Gaining Robustness as Easy as Patching
Weights? [81.77457373726736]
一つのタイプの分散シフトに対して回復力を持つように訓練されたロバストモデルを考えると、モデルの重みに「ロバスト性」がエンコードされているのはなぜか?
クリーンデータでトレーニングされたモデルと事前抽出したRWSを併用した,最小限のモデルロバスト性「パッチング」フレームワークを提案する。
このように、モデルにある種のロバスト性を注入すると、対応するRWSをその重みに直接追加する。
論文 参考訳(メタデータ) (2023-02-24T06:44:19Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - Model Adaptation for Image Reconstruction using Generalized Stein's
Unbiased Risk Estimator [34.08815401541628]
我々は、ネットワークを計測したk空間データに適応させるために、一般化ステインのアンバイアスドリスク推定(GSURE)損失指標を導入する。
kspaceの平均二乗誤差に依存する現在の方法とは異なり、提案されたメトリックは測定におけるノイズを計る。
論文 参考訳(メタデータ) (2021-01-29T20:16:45Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。