論文の概要: Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models
- arxiv url: http://arxiv.org/abs/2509.00083v1
- Date: Wed, 27 Aug 2025 05:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.061384
- Title: Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models
- Title(参考訳): データカルトグラフィーによる記憶ホットスポットの検出と生成モデルにおけるデータ干渉の誘導
- Authors: Laksh Patel, Neel Shanbhag,
- Abstract要約: 現代の生成モデルは、競合者やベンチマークのパフォーマンスによって抽出される稀なトレーニング例を、過度に適合させ、意図せずに記憶するリスクがある。
本稿では,データ中心のフレームワークであるGenerative Data Cartography(GenDataCarto)を提案する。
本研究の記憶度スコアは, 平滑な仮定の下で古典的な影響を低く抑え, 均一な安定性境界を通した一般化ギャップを確実に減少させることを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern generative models risk overfitting and unintentionally memorizing rare training examples, which can be extracted by adversaries or inflate benchmark performance. We propose Generative Data Cartography (GenDataCarto), a data-centric framework that assigns each pretraining sample a difficulty score (early-epoch loss) and a memorization score (frequency of ``forget events''), then partitions examples into four quadrants to guide targeted pruning and up-/down-weighting. We prove that our memorization score lower-bounds classical influence under smoothness assumptions and that down-weighting high-memorization hotspots provably decreases the generalization gap via uniform stability bounds. Empirically, GenDataCarto reduces synthetic canary extraction success by over 40\% at just 10\% data pruning, while increasing validation perplexity by less than 0.5\%. These results demonstrate that principled data interventions can dramatically mitigate leakage with minimal cost to generative performance.
- Abstract(参考訳): 現代の生成モデルは、競合者やベンチマークのパフォーマンスによって抽出される稀なトレーニング例を、過度に適合させ、意図せずに記憶するリスクがある。
我々は,データ中心のフレームワークであるGenerative Data Cartography(GenDataCarto)を提案する。このフレームワークは,事前学習したサンプルに対して,難易度スコア(早期の損失)と暗記スコア(‘forget events’の頻度)を割り当て,サンプルを4つのクアドラントに分割して,ターゲットプルーニングとアップ/ダウン重み付けをガイドする。
本研究の記憶度スコアは, 平滑な仮定の下で古典的な影響を低く抑え, 均一な安定性境界を通した一般化ギャップを確実に減少させることを実証する。
実証的には、GenDataCartoは合成カナリア抽出の成功をわずか10\%のデータプルーニングで40\%以上削減し、検証の難易度は0.5\%以下に向上する。
これらの結果は、データ介入の原則により、生成性能に最小限のコストで、リークを劇的に軽減できることを示している。
関連論文リスト
- Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。
最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。
本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T15:56:44Z) - Taking a Big Step: Large Learning Rates in Denoising Score Matching Prevent Memorization [11.088273093231324]
十分な学習率で勾配降下訓練を行うと、ニューラルネットワークは最小限の局所的な最小限に収束することができない。
実験は,1次元の設定を超えても,記憶予防において学習速度が重要な役割を担っていることを検証した。
論文 参考訳(メタデータ) (2025-02-05T18:29:35Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Robust Data Pruning under Label Noise via Maximizing Re-labeling
Accuracy [34.02350195269502]
我々は再ラベルでデータプルーニングの問題を定式化する。
そこで本研究では,すべてのトレーニング例の局所的信頼度を最大化する,新しいデータプルーニングアルゴリズムPrune4Relを提案する。
論文 参考訳(メタデータ) (2023-11-02T05:40:26Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。