論文の概要: DiffGuard: Text-Based Safety Checker for Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.00064v2
- Date: Wed, 19 Feb 2025 15:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:57:08.366092
- Title: DiffGuard: Text-Based Safety Checker for Diffusion Models
- Title(参考訳): DiffGuard: 拡散モデルのためのテキストベースの安全性チェッカー
- Authors: Massine El Khader, Elias Al Bouzidi, Abdellah Oumida, Mohammed Sbaihi, Eliott Binard, Jean-Philippe Poli, Wassila Ouerdane, Boussad Addad, Katarzyna Kapusta,
- Abstract要約: 本稿では,既存のソリューションよりも優れたテキストベースの安全フィルタを提案する。
我々の研究は、特に情報戦の文脈において、AIが生成するコンテンツの誤用に対処する必要があることによる。
- 参考スコア(独自算出の注目度): 1.4375779579519912
- License:
- Abstract: Recent advances in Diffusion Models have enabled the generation of images from text, with powerful closed-source models like DALL-E and Midjourney leading the way. However, open-source alternatives, such as StabilityAI's Stable Diffusion, offer comparable capabilities. These open-source models, hosted on Hugging Face, come equipped with ethical filter protections designed to prevent the generation of explicit images. This paper reveals first their limitations and then presents a novel text-based safety filter that outperforms existing solutions. Our research is driven by the critical need to address the misuse of AI-generated content, especially in the context of information warfare. DiffGuard enhances filtering efficacy, achieving a performance that surpasses the best existing filters by over 14%.
- Abstract(参考訳): Diffusion Modelsの最近の進歩は、DALL-EやMidjourneyといった強力なクローズドソースモデルによって、テキストからのイメージ生成を可能にしている。
しかし、StableAIのStable Diffusionのようなオープンソースの代替製品は、同等の機能を提供している。
Hugging Faceにホストされているこれらのオープンソースモデルは、明示的な画像の生成を防ぐために設計された倫理的フィルタ保護を備えている。
本稿では,まずその限界を明らかにし,既存のソリューションよりも優れたテキストベースの安全フィルタを提案する。
我々の研究は、特に情報戦の文脈において、AIが生成するコンテンツの誤用に対処する必要があることによる。
DiffGuardはフィルタリングの有効性を高め、最高の既存のフィルタを超えるパフォーマンスを14%以上向上させる。
関連論文リスト
- DiffusionGuard: A Robust Defense Against Malicious Diffusion-based Image Editing [93.45507533317405]
DiffusionGuardは、拡散ベースの画像編集モデルによる不正な編集に対する堅牢で効果的な防御方法である。
拡散過程の初期段階をターゲットとした対向雑音を発生させる新しい目的を提案する。
また,テスト期間中の各種マスクに対するロバスト性を高めるマスク強化手法も導入した。
論文 参考訳(メタデータ) (2024-10-08T05:19:19Z) - Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models [9.905296922309157]
拡散モデルは高品質な画像合成のための強力な生成モデルとして登場し、それに基づく画像編集技術も数多くある。
従来の研究は、知覚不能な摂動を加えることで、画像の拡散に基づく編集を防ごうとしてきた。
本研究は,UNETの脆弱性を悪用した特徴表現攻撃損失と,保護された画像の自然性を高めるための潜在最適化戦略を備えた,新たな攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:56:34Z) - Iterative Window Mean Filter: Thwarting Diffusion-based Adversarial Purification [26.875621618432504]
顔認証システムは、敵攻撃のような目立たない摂動に敏感なため、信頼性が低い。
我々はIWMF (Iterative Window Mean Filter) と呼ばれる,新しい非深層学習に基づく画像フィルタを開発した。
我々は,IWMFと拡散モデルを統合した,IWMF-Diffという逆浄化のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-20T09:19:43Z) - EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Unlearnable Examples for Diffusion Models: Protect Data from Unauthorized Exploitation [25.55296442023984]
本研究では,不正な利用から画像を保護するために,Unlearnable Diffusion Perturbationを提案する。
この成果は、AI生成コンテンツに対するプライバシーと著作権の保護に寄与するため、現実世界のシナリオにおいて重要な意味を持つ。
論文 参考訳(メタデータ) (2023-06-02T20:19:19Z) - CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image
Steganography [15.705627450233504]
制御可能・ロバスト・セキュア画像ステガノグラフィー(CRoSS)という新しい画像ステガノグラフィーフレームワークを提案する。
CRoSSは、カバーベース画像ステガノグラフィー法と比較して、制御性、堅牢性、セキュリティにおいて大きな利点がある。
論文 参考訳(メタデータ) (2023-05-26T13:52:57Z) - DiffProtect: Generate Adversarial Examples with Diffusion Models for
Facial Privacy Protection [64.77548539959501]
DiffProtectは最先端の方法よりも自然に見える暗号化画像を生成する。
例えば、CelebA-HQとFFHQのデータセットで24.5%と25.1%の絶対的な改善が達成されている。
論文 参考訳(メタデータ) (2023-05-23T02:45:49Z) - Red-Teaming the Stable Diffusion Safety Filter [5.683172456953383]
安全フィルタをバイパスする乱雑なコンテンツを容易に生成できることが示される。
将来のモデルリリースの安全性対策は、完全にオープンで適切に文書化されなければならない、と私たちは主張する。
論文 参考訳(メタデータ) (2022-10-03T14:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。