論文の概要: Towards Memorization-Free Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.00922v1
- Date: Mon, 1 Apr 2024 04:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:16:25.679326
- Title: Towards Memorization-Free Diffusion Models
- Title(参考訳): 記憶自由拡散モデルに向けて
- Authors: Chen Chen, Daochang Liu, Chang Xu,
- Abstract要約: 反記憶誘導 (AMG) は, 記憶の主因となる3つの目標誘導戦略を取り入れた新しいフレームワークである。
AMGは、高画質とテキストアライメントを維持しながら、記憶のない出力を保証する。
- 参考スコア(独自算出の注目度): 19.64362921944222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained diffusion models and their outputs are widely accessible due to their exceptional capacity for synthesizing high-quality images and their open-source nature. The users, however, may face litigation risks owing to the models' tendency to memorize and regurgitate training data during inference. To address this, we introduce Anti-Memorization Guidance (AMG), a novel framework employing three targeted guidance strategies for the main causes of memorization: image and caption duplication, and highly specific user prompts. Consequently, AMG ensures memorization-free outputs while maintaining high image quality and text alignment, leveraging the synergy of its guidance methods, each indispensable in its own right. AMG also features an innovative automatic detection system for potential memorization during each step of inference process, allows selective application of guidance strategies, minimally interfering with the original sampling process to preserve output utility. We applied AMG to pretrained Denoising Diffusion Probabilistic Models (DDPM) and Stable Diffusion across various generation tasks. The results demonstrate that AMG is the first approach to successfully eradicates all instances of memorization with no or marginal impacts on image quality and text-alignment, as evidenced by FID and CLIP scores.
- Abstract(参考訳): 事前制限された拡散モデルとその出力は、高品質な画像の合成能力とオープンソースの性質のために、広くアクセス可能である。
しかし、モデルが推論中にトレーニングデータを記憶し、取り消しする傾向があるため、ユーザーは訴訟のリスクに直面する可能性がある。
これを解決するために,画像とキャプションの重複,ユーザプロンプトの高度化という3つの主要な原因を目標としたガイダンス戦略を用いた新しいフレームワークであるAMG(Anti-Memorization Guidance)を紹介した。
その結果、AMGは画像品質とテキストアライメントを維持しつつ、メモリフリーな出力を保証し、ガイダンス手法の相乗効果を活用する。
AMGはまた、推論プロセスの各ステップにおける潜在的な記憶のための革新的な自動検出システムを備え、ガイダンス戦略の選択的適用を可能にし、出力ユーティリティを維持するために元のサンプリングプロセスに最小限干渉する。
AMG を各種生成タスクに応用し, DPM (Denoising Diffusion Probabilistic Models) と DDPM (Stable Diffusion) に応用した。
FIDとCLIPのスコアが示すように、AMGは画像品質とテキストアライメントに何の影響も及ばず、暗記のすべての事例の根絶に成功した最初のアプローチである。
関連論文リスト
- Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Denoising Autoregressive Representation Learning [14.819256445166523]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - MIRST-DM: Multi-Instance RST with Drop-Max Layer for Robust
Classification of Breast Cancer [62.997667081978825]
MIRST-DMと呼ばれるドロップマックス層を用いたマルチインスタンスRTTを提案し、小さなデータセット上でよりスムーズな決定境界を学習する。
提案手法は1,190画像の小さな乳房超音波データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-02T20:25:26Z) - Plug & Play Attacks: Towards Robust and Flexible Model Inversion Attacks [13.374754708543449]
モデルアタック(MIA)は、モデルが学習した知識を活用して、対象のインバージョントレーニングデータからクラスワイズ特性を反映した合成画像を作成することを目的としている。
従来の研究では、特定のターゲットモデルに合わせた画像の先行画像として、GAN(Generative Adversarial Network)を用いたジェネレーティブMIAを開発した。
ターゲットモデルと画像間の依存性を緩和し、訓練された単一のGANを使用することで、幅広いターゲットを攻撃できるプラグイン&プレイアタック(Plug & Play Attacks)を提案する。
論文 参考訳(メタデータ) (2022-01-28T15:25:50Z) - Fully Unsupervised Diversity Denoising with Convolutional Variational
Autoencoders [81.30960319178725]
完全畳み込み変分オートエンコーダ(VAE)に基づく復調手法であるDivNoisingを提案する。
まず, 撮像ノイズモデルをデコーダに明示的に組み込むことにより, 教師なしの雑音発生問題をVAEフレームワーク内に定式化する手法を提案する。
このようなノイズモデルは、ノイズの多いデータから測定したり、ブートストラップしたり、トレーニング中に共同学習したりすることが可能である。
論文 参考訳(メタデータ) (2020-06-10T21:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。