論文の概要: Unveiling Structural Memorization: Structural Membership Inference Attack for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.13252v1
- Date: Thu, 18 Jul 2024 08:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:22:32.138477
- Title: Unveiling Structural Memorization: Structural Membership Inference Attack for Text-to-Image Diffusion Models
- Title(参考訳): 構造記憶の解放:テキスト・画像拡散モデルにおける構造的メンバーシップ推論攻撃
- Authors: Qiao Li, Xiaomeng Fu, Xi Wang, Jin Liu, Xingyu Gao, Jiao Dai, Jizhong Han,
- Abstract要約: メンバー推論攻撃(MIA)は、プライバシ保護のためのツールとして機能するよう提案されている。
テキストから画像への拡散モデルに適した,シンプルで効果的なMIA手法を提案する。
我々の手法は、最先端の性能を達成するだけでなく、様々な歪みに対して顕著な堅牢性を示す。
- 参考スコア(独自算出の注目度): 17.946671657675022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancements of large-scale text-to-image diffusion models, various practical applications have emerged, bringing significant convenience to society. However, model developers may misuse the unauthorized data to train diffusion models. These data are at risk of being memorized by the models, thus potentially violating citizens' privacy rights. Therefore, in order to judge whether a specific image is utilized as a member of a model's training set, Membership Inference Attack (MIA) is proposed to serve as a tool for privacy protection. Current MIA methods predominantly utilize pixel-wise comparisons as distinguishing clues, considering the pixel-level memorization characteristic of diffusion models. However, it is practically impossible for text-to-image models to memorize all the pixel-level information in massive training sets. Therefore, we move to the more advanced structure-level memorization. Observations on the diffusion process show that the structures of members are better preserved compared to those of nonmembers, indicating that diffusion models possess the capability to remember the structures of member images from training sets. Drawing on these insights, we propose a simple yet effective MIA method tailored for text-to-image diffusion models. Extensive experimental results validate the efficacy of our approach. Compared to current pixel-level baselines, our approach not only achieves state-of-the-art performance but also demonstrates remarkable robustness against various distortions.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルの急速な進歩により、様々な実践的応用が生まれ、社会に大きな便宜をもたらした。
しかし、モデル開発者は不正なデータを誤用して拡散モデルを訓練することがある。
これらのデータはモデルによって記憶される危険性があり、市民のプライバシーの権利を侵害する可能性がある。
したがって、特定の画像がモデルのトレーニングセットのメンバーとして利用されるかどうかを判断するために、プライバシ保護のためのツールとしてメンバーシップ推論攻撃(MIA)を提案する。
現在のMIA法は,拡散モデルの画素レベルの記憶特性を考慮し,主に画素比較を手がかりの区別として用いている。
しかし、大規模なトレーニングセットにおけるピクセルレベルの情報を全て記憶することは、テキスト・ツー・イメージ・モデルでは事実上不可能である。
したがって、より高度な構造レベルの記憶へ移行する。
拡散過程の観察から, 部材の構造は非部材よりも保存性が良く, 拡散モデルにはトレーニングセットからメンバー画像の構造を記憶する能力があることが示唆された。
これらの知見に基づいて,テキスト・画像拡散モデルに適したシンプルなMIA手法を提案する。
本手法の有効性を実験的に検証した。
現在の画素レベルのベースラインと比較して,本手法は最先端の性能を達成するだけでなく,様々な歪みに対して顕著な堅牢性を示す。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy [36.156856772794065]
テキスト・画像拡散モデルにおける条件付きオーバーフィッティング現象を提案する。
提案手法は, 各種データおよびデータセットのスケールにおいて, 従来手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-05-23T17:09:51Z) - Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models [39.607005089747936]
テキスト・画像拡散モデルにおける記憶の実際的解析を行う。
暗記に必要な3つの条件,それぞれ類似性,存在,および確率を同定する。
次に,モデルの予測誤差と画像複製の相関関係を明らかにする。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。