Fugu-MT 論文翻訳(概要): Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?

論文の概要: Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?

arxiv url: http://arxiv.org/abs/2310.10012v4
Date: Fri, 7 Jun 2024 02:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 20:56:18.017159
Title: Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?
Title（参考訳）: リング・ア・ベル!拡散モデルの概念除去法はどの程度信頼性が高いか?
Authors: Yu-Lin Tsai, Chia-Yi Hsu, Chulin Xie, Chih-Hsun Lin, Jia-You Chen, Bo Li, Pin-Yu Chen, Chia-Mu Yu, Chun-Ying Huang,
Abstract要約: Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
参考スコア（独自算出の注目度）: 52.238883592674696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models for text-to-image (T2I) synthesis, such as Stable Diffusion (SD), have recently demonstrated exceptional capabilities for generating high-quality content. However, this progress has raised several concerns of potential misuse, particularly in creating copyrighted, prohibited, and restricted content, or NSFW (not safe for work) images. While efforts have been made to mitigate such problems, either by implementing a safety filter at the evaluation stage or by fine-tuning models to eliminate undesirable concepts or styles, the effectiveness of these safety measures in dealing with a wide range of prompts remains largely unexplored. In this work, we aim to investigate these safety mechanisms by proposing one novel concept retrieval algorithm for evaluation. We introduce Ring-A-Bell, a model-agnostic red-teaming tool for T2I diffusion models, where the whole evaluation can be prepared in advance without prior knowledge of the target model. Specifically, Ring-A-Bell first performs concept extraction to obtain holistic representations for sensitive and inappropriate concepts. Subsequently, by leveraging the extracted concept, Ring-A-Bell automatically identifies problematic prompts for diffusion models with the corresponding generation of inappropriate content, allowing the user to assess the reliability of deployed safety mechanisms. Finally, we empirically validate our method by testing online services such as Midjourney and various methods of concept removal. Our results show that Ring-A-Bell, by manipulating safe prompting benchmarks, can transform prompts that were originally regarded as safe to evade existing safety mechanisms, thus revealing the defects of the so-called safety mechanisms which could practically lead to the generation of harmful contents. Our codes are available at https://github.com/chiayi-hsu/Ring-A-Bell.
Abstract（参考訳）: 安定拡散(SD)のようなテキスト・ツー・イメージ(T2I)合成のための拡散モデルは、最近、高品質なコンテンツを生成するための例外的な能力を実証している。しかし、この進歩は潜在的な誤用、特に著作権付き、禁止され、制限されたコンテンツ、NSFW(職場では安全ではない)のイメージを作成する際の懸念を提起している。このような問題を軽減するために、評価段階での安全フィルタの実装や、望ましくない概念やスタイルを除去するための微調整モデルの開発が試みられているが、これらの安全対策が幅広いプロンプトに対処する上での有効性は明らかにされていない。本研究では,評価のための新しい概念検索アルゴリズムを提案することで,これらの安全性メカニズムを解明することを目的とする。本稿では,T2I拡散モデルに対するモデルに依存しないレッドチームツールであるRing-A-Bellを紹介する。具体的には、Ring-A-Bellはまず概念抽出を行い、センシティブで不適切な概念に対する全体論的な表現を得る。その後、抽出された概念を活用することで、Ring-A-Bellは、不適切なコンテンツの生成に対応する拡散モデルに対する問題のあるプロンプトを自動的に識別し、ユーザは、デプロイされた安全メカニズムの信頼性を評価することができる。最後に、Midjourneyなどのオンラインサービスやさまざまなコンセプト削除方法をテストすることで、我々の手法を実証的に検証する。この結果から, 安全プロンプトベンチマークの操作により, 既存の安全機構を回避できると考えられるプロンプトを変換し, 実質的に有害な内容の生成につながるような, いわゆる安全機構の欠陥を明らかにすることができた。私たちのコードはhttps://github.com/chiayi-hsu/Ring-A-Bell.comで公開されています。

関連論文リスト

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。スパースオートエンコーダによって学習された特徴を活用する新しい手法であるSAeUronを紹介する。
論文参考訳（メタデータ） (2025-01-29T23:29:47Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。 T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文参考訳（メタデータ） (2024-07-17T08:19:11Z)
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文参考訳（メタデータ） (2024-07-17T08:04:28Z)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳（メタデータ） (2024-06-21T03:58:44Z)
Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文参考訳（メタデータ） (2024-06-14T02:39:43Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。