論文の概要: Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
- arxiv url: http://arxiv.org/abs/2603.13070v1
- Date: Fri, 13 Mar 2026 15:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.15303
- Title: Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
- Title(参考訳): 領域認識型プロンプト拡張とマルチモーダルコピー検出によるテキスト・画像拡散の緩和
- Authors: Yunzhuo Chen, Jordan Vice, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian,
- Abstract要約: 領域認識型prompt Augmentation(RAPTA)とAttention-Driven Multimodal Copy Detection(ADMCD)を示す。
RAPTAはオブジェクト検出器を使用して、正常な領域を見つけ、それらを意味論的に接地したプロンプトの変種に変換する。
ADMCDは、ローカルパッチ、グローバルセマンティック、テクスチャキューを軽量トランスフォーマーで集約し、融合表現を生成する。
実験により、RAPTAは高い合成品質を維持しながら過度な適合を減少させ、ADMCDはコピーを確実に検出し、単一モードの指標より優れることが示された。
- 参考スコア(独自算出の注目度): 53.789057575175065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art text-to-image diffusion models can produce impressive visuals but may memorize and reproduce training images, creating copyright and privacy risks. Existing prompt perturbations applied at inference time, such as random token insertion or embedding noise, may lower copying but often harm image-prompt alignment and overall fidelity. To address this, we introduce two complementary methods. First, Region-Aware Prompt Augmentation (RAPTA) uses an object detector to find salient regions and turn them into semantically grounded prompt variants, which are randomly sampled during training to increase diversity, while maintaining semantic alignment. Second, Attention-Driven Multimodal Copy Detection (ADMCD) aggregates local patch, global semantic, and texture cues with a lightweight transformer to produce a fused representation, and applies simple thresholded decision rules to detect copying without training with large annotated datasets. Experiments show that RAPTA reduces overfitting while maintaining high synthesis quality, and that ADMCD reliably detects copying, outperforming single-modal metrics.
- Abstract(参考訳): 最先端のテキストから画像への拡散モデルは印象的なビジュアルを生成できるが、トレーニング画像の記憶と再生、著作権とプライバシーのリスクを生み出す可能性がある。
ランダムトークン挿入や埋め込みノイズなど、推論時に適用される既存の急激な摂動は、コピーを低くするが、イメージ・プロンプトのアライメントや全体的な忠実さを損なうことがある。
そこで本研究では,2つの補完手法を提案する。
第一に、Rerea-Aware Prompt Augmentation (RAPTA)は、オブジェクト検出器を使用して、正常な領域を見つけ、それらを意味的に基底付けられたプロンプト変種に変換する。
第二に、ADMCD(Attention-Driven Multimodal Copy Detection)は、ローカルパッチ、グローバルセマンティック、テクスチャキューを軽量なトランスフォーマーで集約し、融合した表現を生成する。
実験により、RAPTAは高い合成品質を維持しながら過度な適合を減少させ、ADMCDはコピーを確実に検出し、単一モードの指標より優れることが示された。
関連論文リスト
- You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models [8.429432661292964]
生成モデルは、あるトレーニングデータを「記憶する」ことが示され、冗長またはほぼ垂直な生成画像に繋がる。
本稿では,テキスト・画像拡散モデルにおけるメモリ化緩和のための新しいフレームワークであるGuidance Using Attractive-Repulsive Dynamics (GUARD)を紹介する。
GUARDは、元のトレーニング画像から、トレーニングデータとは異なるものへ、生成を誘導するために、画像装飾プロセスを調整する。
論文 参考訳(メタデータ) (2026-02-23T17:20:40Z) - MSN: Multi-directional Similarity Network for Hand-crafted and Deep-synthesized Copy-Move Forgery Detection [41.87843079741093]
本稿では,複数方向類似性ネットワーク(MSN)と呼ばれる新しい2ストリームモデルを提案する。
画像は多方向CNNネットワークによって階層的に符号化され、スケールや回転の多様化により、2つのストリームにおけるサンプルパッチの類似性をよりよく測定できる。
ローカライゼーションでは,2次元類似度行列に基づくデコーダを設計し,現在の1次元類似度ベクトルに基づくデコーダと比較して,画像全体の空間情報をフル活用する。
論文 参考訳(メタデータ) (2025-12-08T02:47:05Z) - FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation [16.628211648386454]
FICGenは劣化した画像の周波数知識を潜伏拡散空間に移そうとしている。
FICGenは、生成的忠実度、アライメント、下流補助訓練性の観点から、既存のL2Iメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-01T04:00:22Z) - Finding Dori: Memorization in Text-to-Image Diffusion Models Is Not Local [55.33447817350623]
近年の緩和努力は、動詞の学習データ複製を誘発する原因となる重みの特定と刈り取りに重点を置いている。
この仮定に疑問を呈し、たとえ刈り取られたとしても、以前軽減されたプロンプトのテキスト埋め込みに対する小さな摂動が、データ複製を再トリガーできることを実証する。
本研究は,テキスト・ツー・イメージDMにおける暗記の性質に関する新たな知見を提供し,DMの暗記に対するより信頼性の高い軽減策の開発を知らせるものである。
論文 参考訳(メタデータ) (2025-07-22T15:02:38Z) - CopyJudge: Automated Copyright Infringement Identification and Mitigation in Text-to-Image Diffusion Models [58.58208005178676]
我々は,新しい自動侵害識別フレームワークであるCopyJudgeを提案する。
我々は, 抽象フィルタ比較テストフレームワークを用いて, 侵害の可能性を評価する。
インフレクションを自動最適化する汎用LVLM方式の緩和戦略を導入する。
論文 参考訳(メタデータ) (2025-02-21T08:09:07Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Revisiting Consistency Regularization for Semi-supervised Change
Detection in Remote Sensing Images [60.89777029184023]
教師付きクロスエントロピー(CE)損失に加えて、教師なしCD損失を定式化する半教師付きCDモデルを提案する。
2つの公開CDデータセットを用いて実験を行った結果,提案手法は教師付きCDの性能に近づきやすいことがわかった。
論文 参考訳(メタデータ) (2022-04-18T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。