論文の概要: Diffusion Models Preferentially Memorize Prototypical Examples or: Why Does My Diffusion Model Love Slop?
- arxiv url: http://arxiv.org/abs/2605.30642v1
- Date: Thu, 28 May 2026 22:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.279903
- Title: Diffusion Models Preferentially Memorize Prototypical Examples or: Why Does My Diffusion Model Love Slop?
- Title(参考訳): 拡散モデルを優先的に記憶する それともなぜ拡散モデルを愛すのか?
- Authors: Marta Aparicio Rodriguez, Anastasia Borovykh, Grigorios A. Pavliotis, Daniel J. Korchinski,
- Abstract要約: 我々はランダム階層モデル(RHM)に基づいて生成された文字列上の拡散モデルを訓練する。
共有物からなるサンプルが優先的に記憶されていることが判明した。
我々は、まずコモンズを学習し、その後世代間で過剰生産される部分記憶の中間的状態を特定する。
- 参考スコア(独自算出の注目度): 1.3416169841532526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models have a persistent limitation: their tendency to memorize training data can create legal liabilities and erode creative diversity. Understanding which samples are memorized in whole or in part, and under what conditions, therefore remains an important open problem. Here we answer the question "Are atypical or rare samples memorized first?" in the negative. We train diffusion models on strings generated according to the production rules of the Random Hierarchy Model (RHM), and find that samples composed of common substrings are preferentially memorized. This holds true even if the training data consists of entirely unique samples, indicating that deduplication at the data point level does not provide a meaningful privacy guarantee. Correspondingly we predict, then observe, delayed memorization for fat-tailed datasets (i.e., those with more atypical samples). This effect is amplified when fat-tails are introduced into high-level production rules. These together suggest that dataset diversity, particularly at higher levels of abstraction, plays an important role in staving off memorization. Finally, we identify an intermediate regime of partial memorization in which common substrings are learned first and subsequently overproduced during generation. If training is stopped in this regime, models will exhibit the reversion-to-the-mean blandness often derided as "slop".
- Abstract(参考訳): トレーニングデータを記憶する傾向は、法的負債を生じさせ、創造的な多様性を損なう可能性がある。
どのサンプルが全体として、あるいは部分的に、どの条件下で記憶されているかを理解することは、重要なオープンな問題である。
ここでは「非典型的あるいは稀なサンプルが最初に記憶されているか?」という疑問に答える。
我々はRHM(Random Hierarchy Model)の生成規則に従って生成された文字列上の拡散モデルを訓練し、共通部分弦からなるサンプルが優先的に記憶されていることを確認する。
これは、トレーニングデータが完全にユニークなサンプルで構成されていても真実であり、データポイントレベルでの重複が意味のあるプライバシー保証を提供していないことを示している。
これに対応して、脂肪尾データセット(例えば、より非典型的なサンプルを持つもの)の予測、観測、遅延記憶を行う。
この効果は、ファットテールが高レベルの生産規則に導入されたときに増幅される。
これらは、データセットの多様性、特に高いレベルの抽象化において、記憶の保存を停止させる上で重要な役割を担っていることを示唆している。
最後に、まず共通部分文字列を学習し、次に生成時に過剰に生成する部分記憶の中間的状態を特定する。
この体制でトレーニングが中止された場合、モデルでは、しばしば「傾斜」として飾られる、逆転から平均的な荒野が示される。
関連論文リスト
- Selective Underfitting in Diffusion Models [62.51850508420274]
拡散モデルは,学習時間の帰納バイアスによる経験的スコアに不適合である。
スコアを至る所で不適合にする代わりに、より良い拡散モデルは入力空間の特定の領域のスコアをより正確に近似し、他の領域では不適合にする。
その結果, 拡散モデルを理解するためには選択的不適合性が不可欠であることが確認され, 一般化と生成性能に関する新たな検証可能な知見が得られた。
論文 参考訳(メタデータ) (2025-10-01T19:06:20Z) - A Closer Look on Memorization in Tabular Diffusion Model: A Data-Centric Perspective [15.33961902853653]
生成したサンプルがレプリカとしてフラグ付けされている回数に基づいて,実サンプル毎のメモリ化を定量化する。
経験的分析により,暗記回数の重み付き分布が明らかとなった。
モデルに依存しない2段階緩和法であるDynamicCutを提案する。
論文 参考訳(メタデータ) (2025-05-28T13:06:00Z) - Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。
最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。
本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T15:56:44Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Understanding and Mitigating Copying in Diffusion Models [53.03978584040557]
安定拡散のような拡散モデルによって生成される画像は、ますます広まっている。
最近の研究や訴訟でも、これらのモデルがトレーニングデータを複製する傾向にあることが示されている。
論文 参考訳(メタデータ) (2023-05-31T17:58:02Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Reducing Training Sample Memorization in GANs by Training with
Memorization Rejection [80.0916819303573]
本稿では,トレーニング中のトレーニングサンプルのほぼ重複する生成サンプルを拒否する学習手法であるリジェクション記憶法を提案する。
我々のスキームは単純で汎用的であり、任意のGANアーキテクチャに直接適用することができる。
論文 参考訳(メタデータ) (2022-10-21T20:17:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。