論文の概要: A Closer Look on Memorization in Tabular Diffusion Model: A Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2505.22322v1
- Date: Wed, 28 May 2025 13:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.614574
- Title: A Closer Look on Memorization in Tabular Diffusion Model: A Data-Centric Perspective
- Title(参考訳): タブラル拡散モデルにおける覚書化の概観:データ中心的視点
- Authors: Zhengyu Fang, Zhimeng Jiang, Huiyuan Chen, Xiaoge Zhang, Kaiyu Tang, Xiao Li, Jing Li,
- Abstract要約: 生成したサンプルがレプリカとしてフラグ付けされている回数に基づいて,実サンプル毎のメモリ化を定量化する。
経験的分析により,暗記回数の重み付き分布が明らかとなった。
モデルに依存しない2段階緩和法であるDynamicCutを提案する。
- 参考スコア(独自算出の注目度): 15.33961902853653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown strong performance in generating high-quality tabular data, but they carry privacy risks by reproducing exact training samples. While prior work focuses on dataset-level augmentation to reduce memorization, little is known about which individual samples contribute most. We present the first data-centric study of memorization dynamics in tabular diffusion models. We quantify memorization for each real sample based on how many generated samples are flagged as replicas, using a relative distance ratio. Our empirical analysis reveals a heavy-tailed distribution of memorization counts: a small subset of samples contributes disproportionately to leakage, confirmed via sample-removal experiments. To understand this, we divide real samples into top- and non-top-memorized groups and analyze their training-time behaviors. We track when each sample is first memorized and monitor per-epoch memorization intensity (AUC). Memorized samples are memorized slightly earlier and show stronger signals in early training. Based on these insights, we propose DynamicCut, a two-stage, model-agnostic mitigation method: (a) rank samples by epoch-wise intensity, (b) prune a tunable top fraction, and (c) retrain on the filtered dataset. Across multiple tabular datasets and models, DynamicCut reduces memorization with minimal impact on data diversity and downstream performance. It also complements augmentation-based defenses. Furthermore, DynamicCut enables cross-model transferability: high-ranked samples identified from one model (e.g., a diffusion model) are also effective for reducing memorization when removed from others, such as GANs and VAEs.
- Abstract(参考訳): 拡散モデルは高品質な表型データを生成する上で高いパフォーマンスを示しているが、正確なトレーニングサンプルを再現することでプライバシー上のリスクを負っている。
以前の研究では、暗記を減らすためにデータセットレベルの拡張に焦点を当てていたが、どのサンプルが最も貢献するかは分かっていない。
表層拡散モデルにおける記憶力学に関する最初のデータ中心の研究について述べる。
生成したサンプルがレプリカとしてフラグ付けされている回数に基づいて,各実サンプルのメモリ化を相対距離比を用いて定量化する。
サンプルの少数のサブセットは、サンプル除去実験によって確認された漏れに不均等に寄与する。
これを理解するために、実際のサンプルをトップタイムと非トップタイムのグループに分割し、トレーニング時の振る舞いを分析する。
それぞれのサンプルが最初に記憶されると追跡し,記録強度(AUC)を計測する。
記憶されたサンプルは少し早く記憶され、早期訓練では強いシグナルが現れる。
これらの知見に基づいて,モデルに依存しない2段階緩和法であるDynamicCutを提案する。
(a)エポックワイド・インテンシティによる分類。
(b)順応可能な上位部分、及び
(c)フィルタリングデータセットで再トレーニングする。
複数の表のデータセットとモデルにまたがって、DynamicCutはデータの多様性とダウンストリームのパフォーマンスに最小限の影響で記憶を減らす。
強化ベースの防御も補完する。
さらに、DynamicCutはクロスモデル転送を可能にする: あるモデル(例えば拡散モデル)から特定された高ランクなサンプルは、GANやVAEなどの他のモデルから削除した際の記憶の低減にも有効である。
関連論文リスト
- Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。
最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。
本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T15:56:44Z) - The Unreasonable Ineffectiveness of Nucleus Sampling on Mitigating Text Memorization [15.348047288817478]
大規模言語モデル(LLM)の核サンプリング時のテキスト記憶挙動を解析した。
核の大きさが大きくなると、記憶力は緩やかに低下する。
モデルが"ハード"メモリ化に関与していない場合でも、"ソフト"メモリ化を表示できる。
論文 参考訳(メタデータ) (2024-08-29T08:30:33Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Memorization Through the Lens of Curvature of Loss Function Around
Samples [10.028765645749338]
そこで本研究では,各トレーニング試料の曲率を,トレーニングエポックよりも平均的に算出し,サンプルの記憶の指標として用いることを提案する。
まず、高い曲率のサンプルは、長い尾、ラベルのずれ、あるいは矛盾するサンプルと視覚的に対応していることを示します。
この分析は、私たちの知る限り、CIFAR100とImageNetデータセットの新たな障害モードを見つけるのに役立ちます。
論文 参考訳(メタデータ) (2023-07-11T22:53:09Z) - Reducing Training Sample Memorization in GANs by Training with
Memorization Rejection [80.0916819303573]
本稿では,トレーニング中のトレーニングサンプルのほぼ重複する生成サンプルを拒否する学習手法であるリジェクション記憶法を提案する。
我々のスキームは単純で汎用的であり、任意のGANアーキテクチャに直接適用することができる。
論文 参考訳(メタデータ) (2022-10-21T20:17:50Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - ReSmooth: Detecting and Utilizing OOD Samples when Training with Data
Augmentation [57.38418881020046]
最近のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。
多様性の高い増分戦略は、通常、アウト・オブ・ディストリビューション(OOD)の増分サンプルを導入する。
ReSmoothは、まず、拡張サンプル中のOODサンプルを検知し、それらを活用するフレームワークである。
論文 参考訳(メタデータ) (2022-05-25T09:29:27Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。