論文の概要: MINDiff: Mask-Integrated Negative Attention for Controlling Overfitting in Text-to-Image Personalization
- arxiv url: http://arxiv.org/abs/2511.17888v1
- Date: Sat, 22 Nov 2025 02:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.496177
- Title: MINDiff: Mask-Integrated Negative Attention for Controlling Overfitting in Text-to-Image Personalization
- Title(参考訳): MINDiff: テキスト対画像パーソナライゼーションにおけるオーバーフィッティング制御のためのマスク付き否定的注意
- Authors: Seulgi Jeong, Jaeil Kim,
- Abstract要約: 本研究では,非関連領域における被写体の影響を抑える新しい概念である負の注意(負の注意)を提案する。
推論中にクロスアテンション機構を変更することで、これを実現する。
我々は,MINDiffがクラス固有の保存前損失よりも過度に適合することを実証した。
- 参考スコア(独自算出の注目度): 0.9167082845109437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the personalization process of large-scale text-to-image models, overfitting often occurs when learning specific subject from a limited number of images. Existing methods, such as DreamBooth, mitigate this issue through a class-specific prior-preservation loss, which requires increased computational cost during training and limits user control during inference time. To address these limitations, we propose Mask-Integrated Negative Attention Diffusion (MINDiff). MINDiff introduces a novel concept, negative attention, which suppresses the subject's influence in masked irrelevant regions. We achieve this by modifying the cross-attention mechanism during inference. This enables semantic control and improves text alignment by reducing subject dominance in irrelevant regions. Additionally, during the inference time, users can adjust a scale parameter lambda to balance subject fidelity and text alignment. Our qualitative and quantitative experiments on DreamBooth models demonstrate that MINDiff mitigates overfitting more effectively than class-specific prior-preservation loss. As our method operates entirely at inference time and does not alter the model architecture, it can be directly applied to existing DreamBooth models without re-training. Our code is available at https://github.com/seuleepy/MINDiff.
- Abstract(参考訳): 大規模なテキスト・画像モデルのパーソナライズプロセスでは、限られた数の画像から特定の対象を学習する際に過度に適合することがある。
既存のDreamBoothのような手法では、クラス固有の事前保存損失によってこの問題を緩和する。
これらの制約に対処するため,マスク付き負の注意拡散(MINDiff)を提案する。
MINDiffは、マスクされた無関係な領域における被験者の影響を抑える新しい概念、負の注意を導入する。
推論中にクロスアテンション機構を変更することで、これを実現する。
これにより意味制御が可能となり、無関係領域における主観的優位性を減らすことでテキストアライメントが向上する。
さらに、推論時間中に、ユーザはスケールパラメータラムダを調整して、対象の忠実度とテキストアライメントのバランスを取ることができる。
我々のDreamBoothモデルに関する定性的および定量的実験は、MINDiffがクラス固有の保存前損失よりも効果的に過度に適合することを実証している。
提案手法は推論時に完全に動作し,モデルアーキテクチャを変更しないため,既存のDreamBoothモデルに直接適用することができる。
私たちのコードはhttps://github.com/seuleepy/MINDiff.comから入手可能です。
関連論文リスト
- Single-weight Model Editing for Post-hoc Spurious Correlation Neutralization [54.8794775172033]
ニューラルネットワークのトレーニングは、トレーニング損失を最小限に抑えるショートカットとして、最も単純な機能を利用する傾向がある。
これらの特徴のいくつかは、ターゲットラベルと急激な相関関係があり、モデルによる誤った予測につながる可能性がある。
本稿では,一重の修正を行なえる独特な厳密なクラス除去手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T02:22:42Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based Customization [19.635385099376066]
悪意のあるユーザは、DreamBoothのような拡散ベースのカスタマイズメソッドを誤用して、偽画像を作った。
本稿では,拡散モデル出力を阻害する新しい逆攻撃法であるDisDiffを提案する。
論文 参考訳(メタデータ) (2024-05-31T02:45:31Z) - Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters [67.28751868277611]
近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。