論文の概要: Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2311.16254v2
- Date: Fri, 12 Apr 2024 09:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 19:25:50.698585
- Title: Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models
- Title(参考訳): Safe-CLIP:視覚・言語モデルからNSFW概念を除去する
- Authors: Samuele Poppi, Tobia Poppi, Federico Cocchi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: 本研究では,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。
安全な文と安全でない文の変換を訓練した大規模言語モデルから得られた合成データに対して,CLIPモデルを微調整することで,これを実現できることを示す。
- 参考スコア(独自算出の注目度): 42.19184265811366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-and-language models, such as CLIP, are typically trained on web-scale data, which can introduce inappropriate content and lead to the development of unsafe and biased behavior. This, in turn, hampers their applicability in sensitive and trustworthy contexts and could raise significant concerns in their adoption. Our research introduces a novel approach to enhancing the safety of vision-and-language models by diminishing their sensitivity to NSFW (not safe for work) inputs. In particular, our methodology seeks to sever "toxic" linguistic and visual concepts, unlearning the linkage between unsafe linguistic or visual items and unsafe regions of the embedding space. We show how this can be done by fine-tuning a CLIP model on synthetic data obtained from a large language model trained to convert between safe and unsafe sentences, and a text-to-image generator. We conduct extensive experiments on the resulting embedding space for cross-modal retrieval, text-to-image, and image-to-text generation, where we show that our model can be remarkably employed with pre-trained generative models. Our source code and trained models are available at: https://github.com/aimagelab/safe-clip.
- Abstract(参考訳): CLIPのような大規模ビジョン・アンド・ランゲージモデルは通常、Webスケールのデータに基づいてトレーニングされ、不適切なコンテンツを導入し、安全で偏りのない振る舞いの開発につながる。
これによって、センシティブで信頼性の高いコンテキストで適用性が損なわれ、採用に重大な懸念がもたらされる可能性がある。
本研究は,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。
特に,言語的・視覚的概念の「有害」を排除し,非安全な言語的・視覚的概念と組込み空間の安全でない領域との結びつきを学習する。
安全な文と安全でない文の変換を訓練した大規模言語モデルとテキスト・ツー・イメージ・ジェネレータから得られた合成データに基づいて,CLIPモデルを微調整することで,これを実現できることを示す。
本研究は、モーダル検索、テキスト・ツー・イメージ、画像・ツー・テキスト生成のための埋め込み空間に関する広範な実験を行い、本モデルが事前学習された生成モデルで著しく活用可能であることを示す。
ソースコードとトレーニングされたモデルについては、https://github.com/aimagelab/safe-clip.comで公開しています。
関連論文リスト
- Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
Latent Guardは、テキスト・ツー・画像生成における安全性対策を改善するために設計されたフレームワークである。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダ上に潜伏空間を学習する。
提案するフレームワークは,タスク固有のデータ生成パイプラインで構成されている。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - SafeGen: Mitigating Unsafe Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、特に性的シナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。
テキスト・ツー・イメージ・モデルによる安全でないコンテンツ生成をテキストに依存しない方法で軽減するフレームワークであるSafeGenを提案する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。