論文の概要: Provable Separations between Memorization and Generalization in Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.03202v1
- Date: Wed, 05 Nov 2025 05:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.343196
- Title: Provable Separations between Memorization and Generalization in Diffusion Models
- Title(参考訳): 拡散モデルにおける記憶と一般化の確率的分離
- Authors: Zeqi Ye, Qijie Zhu, Molei Tao, Minshuo Chen,
- Abstract要約: 我々は,統計的推定とネットワーク近似による二分割結果を開発した。
本研究は, 基礎構造スコア関数が経験的復調損失を最小限に抑えられず, 暗記を駆動する分離を生じさせることを示す。
- 参考スコア(独自算出の注目度): 31.32606216124959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable success across diverse domains, but they remain vulnerable to memorization -- reproducing training data rather than generating novel outputs. This not only limits their creative potential but also raises concerns about privacy and safety. While empirical studies have explored mitigation strategies, theoretical understanding of memorization remains limited. We address this gap through developing a dual-separation result via two complementary perspectives: statistical estimation and network approximation. From the estimation side, we show that the ground-truth score function does not minimize the empirical denoising loss, creating a separation that drives memorization. From the approximation side, we prove that implementing the empirical score function requires network size to scale with sample size, spelling a separation compared to the more compact network representation of the ground-truth score function. Guided by these insights, we develop a pruning-based method that reduces memorization while maintaining generation quality in diffusion transformers.
- Abstract(参考訳): 拡散モデルは様々な領域で顕著な成功を収めてきたが、記憶に弱いままであり、新しいアウトプットを生成するのではなく、トレーニングデータを再現している。
これはクリエイティブな可能性を制限するだけでなく、プライバシーと安全性に関する懸念も引き起こす。
実証的研究は緩和戦略を探求してきたが、記憶の理論的理解は依然として限られている。
統計的推定とネットワーク近似という2つの相補的な視点を通して、このギャップに対処する。
推定側から, 基礎構造スコア関数は, 経験的復調損失を最小限に抑えられず, 暗記を駆動する分離を生じさせることを示す。
近似面から、実験的なスコア関数の実装には、サンプルサイズでスケールするためにネットワークサイズが必要であり、地上のスコア関数のよりコンパクトなネットワーク表現と比較して、分離をスペルする。
これらの知見に導かれて,拡散変圧器の生成品質を維持しつつ,記憶量を削減するプルーニング方式を開発した。
関連論文リスト
- Finding Dori: Memorization in Text-to-Image Diffusion Models Is Not Local [55.33447817350623]
近年の緩和努力は、動詞の学習データ複製を誘発する原因となる重みの特定と刈り取りに重点を置いている。
この仮定に疑問を呈し、たとえ刈り取られたとしても、以前軽減されたプロンプトのテキスト埋め込みに対する小さな摂動が、データ複製を再トリガーできることを実証する。
本研究は,テキスト・ツー・イメージDMにおける暗記の性質に関する新たな知見を提供し,DMの暗記に対するより信頼性の高い軽減策の開発を知らせるものである。
論文 参考訳(メタデータ) (2025-07-22T15:02:38Z) - Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。
最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。
本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T15:56:44Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Iterative Ensemble Training with Anti-Gradient Control for Mitigating Memorization in Diffusion Models [20.550324116099357]
拡散モデルは、新規で高品質なサンプルを生成できることで知られている。
最近のメモリ緩和手法は、クロスモーダル生成タスクにおけるテキストモダリティ問題にのみ焦点をあてるか、あるいはデータ拡張戦略を利用するかのどちらかである。
本稿では,視覚的モダリティの観点からの拡散モデルのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T02:19:30Z) - An Inversion-based Measure of Memorization for Diffusion Models [37.9715620828388]
拡散モデルは、データの記憶をトレーニングし、著作権侵害やプライバシー侵害に関する懸念を提起する。
InvMMは,画像の複製を考慮に入れた感度潜時雑音分布の反転に基づく,インバージョンに基づく暗黙化尺度である。
InvMMはサンプル間で共振可能であり、正反対の立場から記憶の真の範囲を明らかにし、記憶がメンバーシップとどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Cross-Domain Similarity Learning for Face Recognition in Unseen Domains [90.35908506994365]
本研究では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失を推測する新しいクロスドメインメトリック学習損失法を提案する。
CDT損失は、一つのドメインからコンパクトな特徴クラスタを強制することによって意味論的に意味のある特徴の学習を促進する。
本手法では,トレーニング中,注意深いハードペアサンプルマイニングおよびフィルタリング戦略は必要としない。
論文 参考訳(メタデータ) (2021-03-12T19:48:01Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。