論文の概要: Towards Memorization-Free Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.00922v1
- Date: Mon, 1 Apr 2024 04:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:16:25.679326
- Title: Towards Memorization-Free Diffusion Models
- Title(参考訳): 記憶自由拡散モデルに向けて
- Authors: Chen Chen, Daochang Liu, Chang Xu,
- Abstract要約: 反記憶誘導 (AMG) は, 記憶の主因となる3つの目標誘導戦略を取り入れた新しいフレームワークである。
AMGは、高画質とテキストアライメントを維持しながら、記憶のない出力を保証する。
- 参考スコア(独自算出の注目度): 19.64362921944222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained diffusion models and their outputs are widely accessible due to their exceptional capacity for synthesizing high-quality images and their open-source nature. The users, however, may face litigation risks owing to the models' tendency to memorize and regurgitate training data during inference. To address this, we introduce Anti-Memorization Guidance (AMG), a novel framework employing three targeted guidance strategies for the main causes of memorization: image and caption duplication, and highly specific user prompts. Consequently, AMG ensures memorization-free outputs while maintaining high image quality and text alignment, leveraging the synergy of its guidance methods, each indispensable in its own right. AMG also features an innovative automatic detection system for potential memorization during each step of inference process, allows selective application of guidance strategies, minimally interfering with the original sampling process to preserve output utility. We applied AMG to pretrained Denoising Diffusion Probabilistic Models (DDPM) and Stable Diffusion across various generation tasks. The results demonstrate that AMG is the first approach to successfully eradicates all instances of memorization with no or marginal impacts on image quality and text-alignment, as evidenced by FID and CLIP scores.
- Abstract(参考訳): 事前制限された拡散モデルとその出力は、高品質な画像の合成能力とオープンソースの性質のために、広くアクセス可能である。
しかし、モデルが推論中にトレーニングデータを記憶し、取り消しする傾向があるため、ユーザーは訴訟のリスクに直面する可能性がある。
これを解決するために,画像とキャプションの重複,ユーザプロンプトの高度化という3つの主要な原因を目標としたガイダンス戦略を用いた新しいフレームワークであるAMG(Anti-Memorization Guidance)を紹介した。
その結果、AMGは画像品質とテキストアライメントを維持しつつ、メモリフリーな出力を保証し、ガイダンス手法の相乗効果を活用する。
AMGはまた、推論プロセスの各ステップにおける潜在的な記憶のための革新的な自動検出システムを備え、ガイダンス戦略の選択的適用を可能にし、出力ユーティリティを維持するために元のサンプリングプロセスに最小限干渉する。
AMG を各種生成タスクに応用し, DPM (Denoising Diffusion Probabilistic Models) と DDPM (Stable Diffusion) に応用した。
FIDとCLIPのスコアが示すように、AMGは画像品質とテキストアライメントに何の影響も及ばず、暗記のすべての事例の根絶に成功した最初のアプローチである。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography [40.357567971092564]
Generative Steganography (GS) は、生成モデルを用いて、隠蔽画像に頼らずにメッセージを隠蔽する手法である。
GSアルゴリズムは拡散モデル(DM)の強力な生成能力を利用して高忠実度ステゴ画像を生成する。
本稿では,DGS(Diffusion Generative Steganography)設定における画像品質,ステガノグラフィセキュリティ,メッセージ抽出精度のトレードオフを再考する。
論文 参考訳(メタデータ) (2024-09-07T18:06:47Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Plug & Play Attacks: Towards Robust and Flexible Model Inversion Attacks [13.374754708543449]
モデルアタック(MIA)は、モデルが学習した知識を活用して、対象のインバージョントレーニングデータからクラスワイズ特性を反映した合成画像を作成することを目的としている。
従来の研究では、特定のターゲットモデルに合わせた画像の先行画像として、GAN(Generative Adversarial Network)を用いたジェネレーティブMIAを開発した。
ターゲットモデルと画像間の依存性を緩和し、訓練された単一のGANを使用することで、幅広いターゲットを攻撃できるプラグイン&プレイアタック(Plug & Play Attacks)を提案する。
論文 参考訳(メタデータ) (2022-01-28T15:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。