論文の概要: Beyond Memorization: Gradient Projection Enables Selective Learning in Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.11194v1
- Date: Fri, 12 Dec 2025 00:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.609473
- Title: Beyond Memorization: Gradient Projection Enables Selective Learning in Diffusion Models
- Title(参考訳): メモリ化を超えて: 拡散モデルにおける選択的な学習を可能にするグラディエント・プロジェクション
- Authors: Divya Kothandaraman, Jaclyn Pytlarz,
- Abstract要約: 大規模テキスト・画像拡散モデルの記憶化は、セキュリティと知的財産権の重大なリスクをもたらす。
概念レベルの機能排除の厳格な要件を強制するために設計されたグラディエント・プロジェクション・フレームワークを導入する。
我々のアプローチは、IPセーフでプライバシ保護された生成AIのための新しいパラダイムを確立します。
- 参考スコア(独自算出の注目度): 3.4064487905075294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memorization in large-scale text-to-image diffusion models poses significant security and intellectual property risks, enabling adversarial attribute extraction and the unauthorized reproduction of sensitive or proprietary features. While conventional dememorization techniques, such as regularization and data filtering, limit overfitting to specific training examples, they fail to systematically prevent the internalization of prohibited concept-level features. Simply discarding all images containing a sensitive feature wastes invaluable training data, necessitating a method for selective unlearning at the concept level. To address this, we introduce a Gradient Projection Framework designed to enforce a stringent requirement of concept-level feature exclusion. Our defense operates during backpropagation by systematically identifying and excising training signals aligned with embeddings of prohibited attributes. Specifically, we project each gradient update onto the orthogonal complement of the sensitive feature's embedding space, thereby zeroing out its influence on the model's weights. Our method integrates seamlessly into standard diffusion model training pipelines and complements existing defenses. We analyze our method against an adversary aiming for feature extraction. In extensive experiments, we demonstrate that our framework drastically reduces memorization while rigorously preserving generation quality and semantic fidelity. By reframing memorization control as selective learning, our approach establishes a new paradigm for IP-safe and privacy-preserving generative AI.
- Abstract(参考訳): 大規模テキストから画像への拡散モデルにおける記憶は、重要なセキュリティと知的財産権のリスクをもたらし、敵対的属性の抽出と、機密性やプロプライエタリな機能の未承認の再現を可能にする。
正規化やデータフィルタリングといった従来の暗記技術は、特定のトレーニング例に過剰な適合を制限しているが、禁止された概念レベルの機能の内部化を体系的に防止することはできなかった。
繊細な特徴を含むすべての画像を捨てるだけで、貴重なトレーニングデータを無駄にし、概念レベルで選択的なアンラーニングの方法を必要とする。
これを解決するために、概念レベルの機能排除という厳格な要件を強制するために設計されたグラディエント・プロジェクション・フレームワークを導入します。
バックプロパゲーションでは,禁止属性の埋め込みに対応する訓練信号を体系的に同定し,抽出することにより,防衛活動を行う。
具体的には、各勾配更新を感度のある特徴の埋め込み空間の直交補空間に投影し、モデルの重みに対する影響をゼロにする。
本手法は,標準拡散モデルトレーニングパイプラインにシームレスに統合し,既存の防御を補完する。
特徴抽出を目的とした敵に対して本手法を解析する。
大規模な実験において,我々のフレームワークは,生成品質と意味的忠実さを厳格に保ちながら,記憶を劇的に減らすことを実証した。
記憶制御を選択的学習とすることで、我々はIPセーフでプライバシーを保護できる生成AIの新しいパラダイムを確立する。
関連論文リスト
- Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization [20.783312940122297]
テキスト・ツー・イメージ(T2I)拡散モデルは,テキスト・プロンプトから高品質な画像を生成することに成功している。
しかし、膨大な量の知識を蓄積する能力は、選択的に忘れることが必要なシナリオに懸念を生じさせる。
マルチコンセプトを忘れるように設計された新しいアンラーニングフレームワークであるコンセプト・アウェア・ロスを併用したtextbfDynamic Maskを提案する。
論文 参考訳(メタデータ) (2025-04-12T01:38:58Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。