論文の概要: Dataset Size Recovery from LoRA Weights
- arxiv url: http://arxiv.org/abs/2406.19395v1
- Date: Thu, 27 Jun 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:09:01.935385
- Title: Dataset Size Recovery from LoRA Weights
- Title(参考訳): LoRA重みからのデータセットサイズ復元
- Authors: Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen,
- Abstract要約: DSiReは、モデルを微調整するために使用される画像の数を復元する方法である。
新しいベンチマークであるLoRA-WiSEをリリースし、2000以上のLoRAファインチューニングモデルから25,000以上のウェイトスナップショットを作成しました。
- 参考スコア(独自算出の注目度): 41.031813850749174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model inversion and membership inference attacks aim to reconstruct and verify the data which a model was trained on. However, they are not guaranteed to find all training samples as they do not know the size of the training set. In this paper, we introduce a new task: dataset size recovery, that aims to determine the number of samples used to train a model, directly from its weights. We then propose DSiRe, a method for recovering the number of images used to fine-tune a model, in the common case where fine-tuning uses LoRA. We discover that both the norm and the spectrum of the LoRA matrices are closely linked to the fine-tuning dataset size; we leverage this finding to propose a simple yet effective prediction algorithm. To evaluate dataset size recovery of LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models. Our best classifier can predict the number of fine-tuning images with a mean absolute error of 0.36 images, establishing the feasibility of this attack.
- Abstract(参考訳): モデルインバージョンとメンバシップ推論攻撃は、モデルがトレーニングしたデータを再構築し、検証することを目的としている。
しかし、トレーニングセットのサイズを知らないため、すべてのトレーニングサンプルを見つけることは保証されていない。
本稿では,モデルのトレーニングに使用するサンプルの数を,重みから直接決定することを目的とした,データセットサイズリカバリという新しいタスクを提案する。
そこで我々はDSiReを提案する。DSiReはモデルを微調整するために使用する画像の数を復元する手法で、微調整がLoRAを使用する場合が多い。
我々は、LoRA行列のノルムとスペクトルの両方が微調整データセットサイズと密接に関連していることを発見し、この発見を活用して、単純で効果的な予測アルゴリズムを提案する。
LoRA重量のデータセットサイズ回復を評価するため,2000種類以上のLoRA微調整モデルから25,000以上の重量スナップショットからなる新しいベンチマークLoRA-WiSEを開発した。
我々の最良の分類器は、平均絶対誤差0.36の微調整画像の数を予測することができ、この攻撃の可能性を確立することができる。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation [48.22550575107633]
新しいアダプタであるCross-Model Low-Rank Adaptation (LoRA-X)は、ソースモデルとターゲットモデル間のLoRAパラメータのトレーニング不要転送を可能にする。
本実験は,テキスト・ツー・イメージ生成におけるLoRA-Xの有効性を示す。
論文 参考訳(メタデータ) (2025-01-27T23:02:24Z) - A LoRA is Worth a Thousand Pictures [28.928964530616593]
低ランク適応(LoRA)は、最小限のデータと計算を用いてアーティストのスタイルや主題を再現することができる。
画像生成やトレーニングセットの知識を必要とせずに,LoRA重みだけで効果的なスタイル記述子として機能することを示す。
ゼロショットLORAファインチューニングやモデル属性など,将来的な応用の可能性について論じる。
論文 参考訳(メタデータ) (2024-12-16T18:18:17Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models [38.197552424549514]
低ランク適応(LoRA)は、大規模な基礎モデルの微調整に革命をもたらした。
LoRAは、これらの低ランクウェイトを入力として利用する機械学習技術を適用する機会を提供する。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
論文 参考訳(メタデータ) (2024-10-05T15:52:47Z) - Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2024-03-18T07:33:56Z) - Non-Visible Light Data Synthesis and Application: A Case Study for
Synthetic Aperture Radar Imagery [30.590315753622132]
非可視光領域における安定拡散やイメージnのような大規模事前学習画像生成モデルの「隠れ」能力について検討する。
2段階の低ランク適応法を提案し,これを2LoRAと呼ぶ。
第1段階では、構造がSARと一致する空中視正則画像データを用いてモデルを適応させ、続いて第1段階からのベースモデルをSARモダリティデータによりさらに適応させる第2段階とする。
論文 参考訳(メタデータ) (2023-11-29T09:48:01Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。