論文の概要: Dataset Size Recovery from LoRA Weights
- arxiv url: http://arxiv.org/abs/2406.19395v1
- Date: Thu, 27 Jun 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:09:01.935385
- Title: Dataset Size Recovery from LoRA Weights
- Title(参考訳): LoRA重みからのデータセットサイズ復元
- Authors: Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen,
- Abstract要約: DSiReは、モデルを微調整するために使用される画像の数を復元する方法である。
新しいベンチマークであるLoRA-WiSEをリリースし、2000以上のLoRAファインチューニングモデルから25,000以上のウェイトスナップショットを作成しました。
- 参考スコア(独自算出の注目度): 41.031813850749174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model inversion and membership inference attacks aim to reconstruct and verify the data which a model was trained on. However, they are not guaranteed to find all training samples as they do not know the size of the training set. In this paper, we introduce a new task: dataset size recovery, that aims to determine the number of samples used to train a model, directly from its weights. We then propose DSiRe, a method for recovering the number of images used to fine-tune a model, in the common case where fine-tuning uses LoRA. We discover that both the norm and the spectrum of the LoRA matrices are closely linked to the fine-tuning dataset size; we leverage this finding to propose a simple yet effective prediction algorithm. To evaluate dataset size recovery of LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models. Our best classifier can predict the number of fine-tuning images with a mean absolute error of 0.36 images, establishing the feasibility of this attack.
- Abstract(参考訳): モデルインバージョンとメンバシップ推論攻撃は、モデルがトレーニングしたデータを再構築し、検証することを目的としている。
しかし、トレーニングセットのサイズを知らないため、すべてのトレーニングサンプルを見つけることは保証されていない。
本稿では,モデルのトレーニングに使用するサンプルの数を,重みから直接決定することを目的とした,データセットサイズリカバリという新しいタスクを提案する。
そこで我々はDSiReを提案する。DSiReはモデルを微調整するために使用する画像の数を復元する手法で、微調整がLoRAを使用する場合が多い。
我々は、LoRA行列のノルムとスペクトルの両方が微調整データセットサイズと密接に関連していることを発見し、この発見を活用して、単純で効果的な予測アルゴリズムを提案する。
LoRA重量のデータセットサイズ回復を評価するため,2000種類以上のLoRA微調整モデルから25,000以上の重量スナップショットからなる新しいベンチマークLoRA-WiSEを開発した。
我々の最良の分類器は、平均絶対誤差0.36の微調整画像の数を予測することができ、この攻撃の可能性を確立することができる。
関連論文リスト
- EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。
アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。
我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。
我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文 参考訳(メタデータ) (2024-10-30T12:16:35Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models [38.197552424549514]
低ランク適応(LoRA)は、大規模な基礎モデルの微調整に革命をもたらした。
LoRAは、これらの低ランクウェイトを入力として利用する機械学習技術を適用する機会を提供する。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
論文 参考訳(メタデータ) (2024-10-05T15:52:47Z) - Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2024-03-18T07:33:56Z) - Non-Visible Light Data Synthesis and Application: A Case Study for
Synthetic Aperture Radar Imagery [30.590315753622132]
非可視光領域における安定拡散やイメージnのような大規模事前学習画像生成モデルの「隠れ」能力について検討する。
2段階の低ランク適応法を提案し,これを2LoRAと呼ぶ。
第1段階では、構造がSARと一致する空中視正則画像データを用いてモデルを適応させ、続いて第1段階からのベースモデルをSARモダリティデータによりさらに適応させる第2段階とする。
論文 参考訳(メタデータ) (2023-11-29T09:48:01Z) - The Expressive Power of Low-Rank Adaptation [11.371811534310078]
パラメータ効率のよい微調整法である低ランク適応は、微調整事前学習モデルの代表的な手法として登場した。
本稿では,LoRAの表現力を理論的に解析することで,ギャップを埋める第一歩を踏み出す。
トランスフォーマーネットワークでは、任意のモデルが、ランク=$(fractextembedding size2)$ LoRAで同じサイズのターゲットモデルに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-10-26T16:08:33Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Robust Weight Signatures: Gaining Robustness as Easy as Patching
Weights? [81.77457373726736]
一つのタイプの分散シフトに対して回復力を持つように訓練されたロバストモデルを考えると、モデルの重みに「ロバスト性」がエンコードされているのはなぜか?
クリーンデータでトレーニングされたモデルと事前抽出したRWSを併用した,最小限のモデルロバスト性「パッチング」フレームワークを提案する。
このように、モデルにある種のロバスト性を注入すると、対応するRWSをその重みに直接追加する。
論文 参考訳(メタデータ) (2023-02-24T06:44:19Z) - Model Adaptation for Image Reconstruction using Generalized Stein's
Unbiased Risk Estimator [34.08815401541628]
我々は、ネットワークを計測したk空間データに適応させるために、一般化ステインのアンバイアスドリスク推定(GSURE)損失指標を導入する。
kspaceの平均二乗誤差に依存する現在の方法とは異なり、提案されたメトリックは測定におけるノイズを計る。
論文 参考訳(メタデータ) (2021-01-29T20:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。