論文の概要: Unconsciously Forget: Mitigating Memorization; Without Knowing What is being Memorized
- arxiv url: http://arxiv.org/abs/2512.09687v2
- Date: Fri, 12 Dec 2025 15:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.101072
- Title: Unconsciously Forget: Mitigating Memorization; Without Knowing What is being Memorized
- Title(参考訳): 無意識で忘れる:暗記を誤る; 暗記されているものを知ることなく
- Authors: Er Jin, Yang Zhang, Yongli Mou, Yanfei Dong, Stefan Decker, Kenji Kawaguchi, Johannes Stegmaier,
- Abstract要約: トレーニングデータの記憶は、著作権侵害、肖像画権侵害、商標侵害などの法的問題につながる可能性がある。
我々の研究は、モデルの特定の部分が著作権のあるコンテンツ生成に責任があることを実証している。
モデルプルーニングを適用することで、特定の概念を目標にすることなく、著作権のあるコンテンツを生成する確率を効果的に抑えることができる。
- 参考スコア(独自算出の注目度): 41.5028352241977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative models have demonstrated an exceptional ability to produce highly realistic images. However, previous studies show that generated images often resemble the training data, and this problem becomes more severe as the model size increases. Memorizing training data can lead to legal challenges, including copyright infringement, violations of portrait rights, and trademark violations. Existing approaches to mitigating memorization mainly focus on manipulating the denoising sampling process to steer image embeddings away from the memorized embedding space or employ unlearning methods that require training on datasets containing specific sets of memorized concepts. However, existing methods often incur substantial computational overhead during sampling, or focus narrowly on removing one or more groups of target concepts, imposing a significant limitation on their scalability. To understand and mitigate these problems, our work, UniForget, offers a new perspective on understanding the root cause of memorization. Our work demonstrates that specific parts of the model are responsible for copyrighted content generation. By applying model pruning, we can effectively suppress the probability of generating copyrighted content without targeting specific concepts while preserving the general generative capabilities of the model. Additionally, we show that our approach is both orthogonal and complementary to existing unlearning methods, thereby highlighting its potential to improve current unlearning and de-memorization techniques.
- Abstract(参考訳): 生成モデルにおける最近の進歩は、非常に現実的な画像を生成する素晴らしい能力を示している。
しかし、過去の研究では、生成された画像はトレーニングデータによく似ていることが示されており、モデルのサイズが大きくなるにつれて、この問題はより深刻になる。
トレーニングデータの記憶は、著作権侵害、肖像画権侵害、商標侵害などの法的問題につながる可能性がある。
メモ化を緩和するための既存のアプローチは、主に、記憶された埋め込み空間からイメージ埋め込みをステアリングするために、復調サンプリングプロセスを操作すること、あるいは記憶された概念の特定のセットを含むデータセットのトレーニングを必要とする未学習の手法を採用することに焦点を当てている。
しかし、既存の手法はサンプリング中にかなりの計算オーバーヘッドを発生させることが多く、あるいは目標とする概念の1つ以上のグループを狭く取り除き、スケーラビリティにかなりの制限を課す。
これらの問題を理解し緩和するために、我々の研究であるUniForgetは、記憶の根本原因を理解するための新しい視点を提供する。
我々の研究は、モデルの特定の部分が著作権のあるコンテンツ生成に責任があることを実証している。
モデルプルーニングを適用することで、モデルの一般的な生成能力を保ちながら、特定の概念を標的にすることなく、著作権のあるコンテンツを生成する確率を効果的に抑えることができる。
さらに,本手法は既存の未学習手法と直交的かつ相補的であり,現在の未学習・非記憶化技術の改善の可能性を強調した。
関連論文リスト
- Memory Self-Regeneration: Uncovering Hidden Knowledge in Unlearned Models [1.3654763247057877]
モデルが知識を忘れ、思い出す能力について考察する。
本稿では,失った知識の効果的な回復を支援するための再生的アプローチとして,MemoRa戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T19:11:01Z) - Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization [20.783312940122297]
テキスト・ツー・イメージ(T2I)拡散モデルは,テキスト・プロンプトから高品質な画像を生成することに成功している。
しかし、膨大な量の知識を蓄積する能力は、選択的に忘れることが必要なシナリオに懸念を生じさせる。
マルチコンセプトを忘れるように設計された新しいアンラーニングフレームワークであるコンセプト・アウェア・ロスを併用したtextbfDynamic Maskを提案する。
論文 参考訳(メタデータ) (2025-04-12T01:38:58Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。