論文の概要: You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.00133v1
- Date: Mon, 23 Feb 2026 17:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.044441
- Title: You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models
- Title(参考訳): テキストと画像の拡散モデルにおける手術記憶の緩和
- Authors: Kairan Zhao, Eleni Triantafillou, Peter Triantafillou,
- Abstract要約: 生成モデルは、あるトレーニングデータを「記憶する」ことが示され、冗長またはほぼ垂直な生成画像に繋がる。
本稿では,テキスト・画像拡散モデルにおけるメモリ化緩和のための新しいフレームワークであるGuidance Using Attractive-Repulsive Dynamics (GUARD)を紹介する。
GUARDは、元のトレーニング画像から、トレーニングデータとは異なるものへ、生成を誘導するために、画像装飾プロセスを調整する。
- 参考スコア(独自算出の注目度): 8.429432661292964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models have been shown to "memorize" certain training data, leading to verbatim or near-verbatim generating images, which may cause privacy concerns or copyright infringement. We introduce Guidance Using Attractive-Repulsive Dynamics (GUARD), a novel framework for memorization mitigation in text-to-image diffusion models. GUARD adjusts the image denoising process to guide the generation away from an original training image and towards one that is distinct from training data while remaining aligned with the prompt, guarding against reproducing training data, without hurting image generation quality. We propose a concrete instantiation of this framework, where the positive target that we steer towards is given by a novel method for (cross) attention attenuation based on (i) a novel statistical mechanism that automatically identifies the prompt positions where cross attention must be attenuated and (ii) attenuating cross-attention in these per-prompt locations. The resulting GUARD offers a surgical, dynamic per-prompt inference-time approach that, we find, is by far the most robust method in terms of consistently producing state-of-the-art results for memorization mitigation across two architectures and for both verbatim and template memorization, while also improving upon or yielding comparable results in terms of image quality.
- Abstract(参考訳): 生成モデルは特定のトレーニングデータを「記憶する」ことが示され、冗長またはほぼ垂直に近い画像が生成され、プライバシー上の懸念や著作権侵害を引き起こす可能性がある。
本稿では,テキスト・画像拡散モデルにおけるメモリ化緩和のための新しいフレームワークであるGuidance Using Attractive-Repulsive Dynamics (GUARD)を紹介する。
GUARDは、画像復調処理を調整し、画像生成品質を損なうことなく、元のトレーニング画像から、プロンプトと整合性を維持しながら、トレーニングデータとは異なるものへ誘導する。
我々は,この枠組みの具体的インスタンス化を提案し,これに基づいて注意の減衰を(横断的に)抑制する新しい手法により,私たちが目指す正の目標を提示する。
一 横断的注意を減らさなければならない急進的な位置を自動的に識別する新しい統計機構
(二)これらの急激な場所における横断的注意を弱めること。
結果として得られたGUARDは外科的かつ動的にプロンプト毎の推論時間(英語版)のアプローチを提供するが、これは2つのアーキテクチャをまたいだメモリ化とテンプレートのメモリ化の両面において、画像の品質の観点から比較した結果を改善または得られるという、最も堅牢な方法である。
関連論文リスト
- Finding Dori: Memorization in Text-to-Image Diffusion Models Is Not Local [55.33447817350623]
近年の緩和努力は、動詞の学習データ複製を誘発する原因となる重みの特定と刈り取りに重点を置いている。
この仮定に疑問を呈し、たとえ刈り取られたとしても、以前軽減されたプロンプトのテキスト埋め込みに対する小さな摂動が、データ複製を再トリガーできることを実証する。
本研究は,テキスト・ツー・イメージDMにおける暗記の性質に関する新たな知見を提供し,DMの暗記に対するより信頼性の高い軽減策の開発を知らせるものである。
論文 参考訳(メタデータ) (2025-07-22T15:02:38Z) - A Watermark for Auto-Regressive Image Generation Models [50.599325258178254]
画像生成モデル用に明示的に設計された歪みのない透かし法であるC-reweightを提案する。
C-reweightは画像の忠実性を維持しながら再起動ミスマッチを緩和する。
論文 参考訳(メタデータ) (2025-06-13T00:15:54Z) - Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
テキスト・画像拡散モデルにおける「右端」(BE)異常は、トレーニング画像の記憶に起因する。
本稿では,BEを既存のフレームワークに統合する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T02:16:01Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。