論文の概要: Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image
Retrieval and Generation
- arxiv url: http://arxiv.org/abs/2311.16254v1
- Date: Mon, 27 Nov 2023 19:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:15:35.301473
- Title: Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image
Retrieval and Generation
- Title(参考訳): テキスト・画像検索・生成のための視覚・言語モデルからのNSFW概念の除去
- Authors: Samuele Poppi, Tobia Poppi, Federico Cocchi, Marcella Cornia, Lorenzo
Baraldi, Rita Cucchiara
- Abstract要約: 我々は、安全でない作業概念に対する感受性を排除し、ビジョン・アンド・ランゲージモデルをより安全にする方法を紹介した。
安全な文と安全でない文を変換する大規模な言語モデルから、これを蒸留する方法を示す。
本研究では,画像検索とテキスト・ツー・イメージ生成の両面から得られる埋め込み空間について広範な実験を行った。
- 参考スコア(独自算出の注目度): 44.707144011189335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language models such as CLIP have demonstrated remarkable
effectiveness across a wide range of tasks. However, these models are typically
trained on web-scale data, which can introduce inappropriate content and lead
to the development of unsafe and biased behavior. This, in turn, hampers their
applicability in sensitive and trustworthy contexts and could raise significant
concern in their adoption. To overcome these limitations, we introduce a
methodology to make Vision-and-Language models safer by removing their
sensitivity to not-safe-for-work concepts. We show how this can be done by
distilling from a large language model which converts between safe and unsafe
sentences and which is fine-tuned starting from just 100 manually-curated
pairs. We conduct extensive experiments on the resulting embedding space for
both retrieval and text-to-image generation, where we show that our model can
also be properly employed with pre-trained image generators. Our source code
and trained models are available at: https://github.com/aimagelab/safe-clip.
- Abstract(参考訳): CLIPのようなビジョン・アンド・ランゲージモデルは、幅広いタスクで顕著な効果を示している。
しかし、これらのモデルは通常、Webスケールのデータに基づいてトレーニングされ、不適切なコンテンツを導入し、安全で偏りのない振る舞いの開発につながる。
これによって、センシティブで信頼性の高いコンテキストで適用性が損なわれ、採用に重大な懸念がもたらされる可能性がある。
これらの制約を克服するため,我々は,非セーフな作業概念に対する感度をなくし,視覚・言語モデルの安全性を高める手法を提案する。
安全な文と安全でない文を変換し、手作業で計算した100組のペアから微調整する大規模言語モデルからこれを蒸留する方法を示す。
検索とテキスト対画像生成のための埋め込み空間を広範囲に実験し,本モデルが事前学習した画像生成装置でも適切に利用できることを示す。
ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/safe-clip.com/で利用可能です。
関連論文リスト
- Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。