論文の概要: Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention
- arxiv url: http://arxiv.org/abs/2403.11052v1
- Date: Sun, 17 Mar 2024 01:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:27:00.456154
- Title: Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention
- Title(参考訳): クロスアテンションによるテキスト・画像拡散モデルの展開と緩和
- Authors: Jie Ren, Yaxin Li, Shenglai Zen, Han Xu, Lingjuan Lyu, Yue Xing, Jiliang Tang,
- Abstract要約: 研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
- 参考スコア(独自算出の注目度): 62.671435607043875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-to-image diffusion models have demonstrated their remarkable capability to generate high-quality images from textual prompts. However, increasing research indicates that these models memorize and replicate images from their training data, raising tremendous concerns about potential copyright infringement and privacy risks. In our study, we provide a novel perspective to understand this memorization phenomenon by examining its relationship with cross-attention mechanisms. We reveal that during memorization, the cross-attention tends to focus disproportionately on the embeddings of specific tokens. The diffusion model is overfitted to these token embeddings, memorizing corresponding training images. To elucidate this phenomenon, we further identify and discuss various intrinsic findings of cross-attention that contribute to memorization. Building on these insights, we introduce an innovative approach to detect and mitigate memorization in diffusion models. The advantage of our proposed method is that it will not compromise the speed of either the training or the inference processes in these models while preserving the quality of generated images. Our code is available at https://github.com/renjie3/MemAttn .
- Abstract(参考訳): テキスト間拡散モデルの最近の進歩は、テキストプロンプトから高品質な画像を生成する顕著な能力を示している。
しかし、研究の高まりは、これらのモデルがトレーニングデータからイメージを記憶し、複製していることを示し、著作権侵害やプライバシーリスクに関する大きな懸念を提起している。
本研究では,この記憶現象を理解するための新しい視点を提供する。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルはこれらのトークン埋め込みに過度に適合し、対応するトレーニングイメージを記憶する。
この現象を解明するために, 記憶に寄与するクロスアテンションの様々な本質的な発見を同定し, 議論する。
これらの知見に基づいて,拡散モデルにおける記憶の発見と緩和のための革新的なアプローチを導入する。
提案手法の利点は、生成した画像の品質を維持しながら、これらのモデルにおけるトレーニングや推論プロセスの速さを損なわないことである。
私たちのコードはhttps://github.com/renjie3/MemAttn で利用可能です。
関連論文リスト
- Unveiling Structural Memorization: Structural Membership Inference Attack for Text-to-Image Diffusion Models [17.946671657675022]
メンバー推論攻撃(MIA)は、プライバシ保護のためのツールとして機能するよう提案されている。
テキストから画像への拡散モデルに適した,シンプルで効果的なMIA手法を提案する。
我々の手法は、最先端の性能を達成するだけでなく、様々な歪みに対して顕著な堅牢性を示す。
論文 参考訳(メタデータ) (2024-07-18T08:07:28Z) - Investigating and Defending Shortcut Learning in Personalized Diffusion Models [16.569765598914152]
ショートカット学習のレンズを通して、パーソナライズされた拡散モデルの微調整過程を詳しく調べる。
この微調整時のミスアライメントは、モデルがノイズパターンと識別子を関連付ける原因となり、性能が低下する。
提案手法は,まず画像に固有の意味的意味を潜時空間で認識する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models [39.607005089747936]
テキスト・画像拡散モデルにおける記憶の実際的解析を行う。
暗記に必要な3つの条件,それぞれ類似性,存在,および確率を同定する。
次に,モデルの予測誤差と画像複製の相関関係を明らかにする。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。