論文の概要: Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training?
- arxiv url: http://arxiv.org/abs/2503.09122v1
- Date: Wed, 12 Mar 2025 07:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:22.244430
- Title: Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training?
- Title(参考訳): トレーニングデータ検証:あなたのモデルは、トレーニングのための私の生成モデルから合成データを使用したか?
- Authors: Yuechen Xie, Jie Song, Huiqiong Wang, Mingli Song,
- Abstract要約: 高品質なオープンソーステキスト・ツー・イメージモデルは、フォトリアリスティックな画像を得るためのしきい値を大幅に下げている。
疑念は、これらの生成モデルによって生成された合成データを使用して、特定のタスクのためのモデルを許可なく訓練することができる。
トレーニングデータ保証検証(TrainProVe)と呼ばれる,この重要な未解決問題に対する最初の手法を提案する。
Stable Diffusion v1.4, latent consistency model, PixArt-$alpha$, Stable Cascade)。
- 参考スコア(独自算出の注目度): 36.827310918094874
- License:
- Abstract: High-quality open-source text-to-image models have lowered the threshold for obtaining photorealistic images significantly, but also face potential risks of misuse. Specifically, suspects may use synthetic data generated by these generative models to train models for specific tasks without permission, when lacking real data resources especially. Protecting these generative models is crucial for the well-being of their owners. In this work, we propose the first method to this important yet unresolved issue, called Training data Provenance Verification (TrainProVe). The rationale behind TrainProVe is grounded in the principle of generalization error bound, which suggests that, for two models with the same task, if the distance between their training data distributions is smaller, their generalization ability will be closer. We validate the efficacy of TrainProVe across four text-to-image models (Stable Diffusion v1.4, latent consistency model, PixArt-$\alpha$, and Stable Cascade). The results show that TrainProVe achieves a verification accuracy of over 99\% in determining the provenance of suspicious model training data, surpassing all previous methods. Code is available at https://github.com/xieyc99/TrainProVe.
- Abstract(参考訳): 高品質なオープンソーステキスト・ツー・イメージモデルは、フォトリアリスティックな画像を得るためのしきい値を大幅に下げる一方で、誤使用の潜在的なリスクにも直面している。
具体的には、特に実際のデータ資源が不足している場合、容疑者はこれらの生成モデルによって生成された合成データを使用して、特定のタスクのためのモデルを許可なく訓練することができる。
これらの生成モデルを保護することは、所有者の幸福のために不可欠である。
本研究では,この重要かつ未解決な問題に対して,トレーニングデータ保証検証(TrainProVe)と呼ばれる最初の手法を提案する。
TrainProVeの理論的根拠は一般化誤差境界の原理に基づいており、同じタスクを持つ2つのモデルの場合、トレーニングデータ分布間の距離が小さくなれば、それらの一般化能力はより近くなることを示唆している。
テキスト・ツー・イメージモデル(Stable Diffusion v1.4, latent consistency model, PixArt-$\alpha$, Stable Cascade)でTrainProVeの有効性を検証する。
その結果,TrainProVeは疑わしいモデルトレーニングデータの精度を99%以上向上し,従来の手法を超越していることがわかった。
コードはhttps://github.com/xieyc99/TrainProVe.comで入手できる。
関連論文リスト
- Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing [21.52641337754884]
ある種の敵攻撃は、トレーニングデータセットを汚染することで、機械学習モデルの振る舞いを操作できる。
EDTモデル, textbfEfficient, textbfData-free, textbfTraining-free バックドアアタック手法を導入する。
モデル編集技術にインスパイアされたEDTは、編集ベースの軽量コードブックを、大規模な事前訓練されたモデルのバックドアに注入する。
論文 参考訳(メタデータ) (2024-10-23T20:32:14Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Training Data Attribution: Was Your Model Secretly Trained On Data Created By Mine? [17.714589429503675]
テキスト・ツー・イメージ・モデルに対するインジェクションフリーなトレーニングデータ属性法を提案する。
我々のアプローチでは、異なるサンプルを発見できるアルゴリズムを開発し、それらを固有の透かしとして利用する。
実験により,疑わしいモデルのトレーニングデータのソースを特定する精度が80%以上であることが確認された。
論文 参考訳(メタデータ) (2024-09-24T06:23:43Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。
検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文 参考訳(メタデータ) (2023-07-02T23:27:00Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。