論文の概要: SAGE: Exploring the Boundaries of Unsafe Concept Domain with Semantic-Augment Erasing
- arxiv url: http://arxiv.org/abs/2506.09363v1
- Date: Wed, 11 Jun 2025 03:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.293542
- Title: SAGE: Exploring the Boundaries of Unsafe Concept Domain with Semantic-Augment Erasing
- Title(参考訳): SAGE: セマンティック拡張による安全でない概念ドメインの境界を探る
- Authors: Hongguang Zhu, Yunchao Wei, Mengyu Wang, Siyu Jiao, Yan Fang, Jiannan Huang, Yao Zhao,
- Abstract要約: 望ましくない概念に微妙な重みを消去する概念。
既存の方法は、安全でない概念を固定語として扱い、繰り返し消去する。
本稿では,概念語消去を概念ドメイン消去に変換する意味拡張消去について紹介する。
- 参考スコア(独自算出の注目度): 65.82241040239452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models (DMs) have achieved significant progress in text-to-image generation. However, the inevitable inclusion of sensitive information during pre-training poses safety risks, such as unsafe content generation and copyright infringement. Concept erasing finetunes weights to unlearn undesirable concepts, and has emerged as a promising solution. However, existing methods treat unsafe concept as a fixed word and repeatedly erase it, trapping DMs in ``word concept abyss'', which prevents generalized concept-related erasing. To escape this abyss, we introduce semantic-augment erasing which transforms concept word erasure into concept domain erasure by the cyclic self-check and self-erasure. It efficiently explores and unlearns the boundary representation of concept domain through semantic spatial relationships between original and training DMs, without requiring additional preprocessed data. Meanwhile, to mitigate the retention degradation of irrelevant concepts while erasing unsafe concepts, we further propose the global-local collaborative retention mechanism that combines global semantic relationship alignment with local predicted noise preservation, effectively expanding the retentive receptive field for irrelevant concepts. We name our method SAGE, and extensive experiments demonstrate the comprehensive superiority of SAGE compared with other methods in the safe generation of DMs. The code and weights will be open-sourced at https://github.com/KevinLight831/SAGE.
- Abstract(参考訳): 拡散モデル (DM) はテキスト・画像生成において大きな進歩を遂げた。
しかし、事前トレーニング中に機密情報が必然的に含まれることは、安全でないコンテンツ生成や著作権侵害などの安全リスクを引き起こす。
概念は、望ましくない概念に微妙な重みを消去し、有望な解決策として現れている。
しかし、既存の手法では、安全でない概念を固定語として扱い、それを繰り返し消去し、 '`word concept abys'' でDMをトラップすることで、一般化された概念関連消去を防止している。
そこで本研究では,概念領域の消去をサイクリック自己チェックと自己消去によって,概念領域の消去に変換するセマンティック拡張消去を導入する。
従来のDMとトレーニングDMのセマンティックな空間的関係を通じて概念領域の境界表現を効率的に探索し、学習し、追加の事前処理データを必要としない。
一方,無関係な概念を消去しながら,無関係な概念の保持の低下を軽減するために,グローバルな意味的関係と局所的な騒音の保存を組み合わせ,無関係な概念に対する受容領域を効果的に拡張するグローバルな協調的保持機構を提案する。
提案手法をSAGEと命名し, DMの安全生成における他の手法と比較して, SAGEの総合的な優位性を示す広範な実験を行った。
コードと重みはhttps://github.com/KevinLight831/SAGE.comでオープンソース化される。
関連論文リスト
- CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models [19.205261933636645]
本稿では,新しい概念消去フレームワークCRCEを紹介する。
コアフェルデンシャルと保持概念を意味的に明示的にモデル化することにより、CRCEはより正確な概念除去を可能にする。
実験により、CRCEは様々な消去タスクにおいて既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-18T13:09:01Z) - Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them [21.386640828092524]
概念消去は拡散モデルにおける有害なコンテンツ生成のリスクを軽減するための有望な手法として現れてきた。
本稿では,各望ましくない概念に合わせて最適な目標概念を動的に選択するAdaptive Guided Erasure (AGE)法を提案する。
その結果, AGEは, 有効消去性能を維持しつつ, 無関係な概念を保存し, 最先端の消去手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-31T08:17:23Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - RealEra: Semantic-level Concept Erasure via Neighbor-Concept Mining [25.769144703607214]
概念消去は、モデルが保護され不適切な概念に関する知識を取り除くために提案されている。
この「概念残余」問題に対処するためにRealEraを提案する。
また,RealEraは,有効性,特異性,汎用性において,従来の消去方法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-10-11T17:55:30Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。