論文の概要: Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image
Retrieval and Generation
- arxiv url: http://arxiv.org/abs/2311.16254v1
- Date: Mon, 27 Nov 2023 19:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:15:35.301473
- Title: Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image
Retrieval and Generation
- Title(参考訳): テキスト・画像検索・生成のための視覚・言語モデルからのNSFW概念の除去
- Authors: Samuele Poppi, Tobia Poppi, Federico Cocchi, Marcella Cornia, Lorenzo
Baraldi, Rita Cucchiara
- Abstract要約: 我々は、安全でない作業概念に対する感受性を排除し、ビジョン・アンド・ランゲージモデルをより安全にする方法を紹介した。
安全な文と安全でない文を変換する大規模な言語モデルから、これを蒸留する方法を示す。
本研究では,画像検索とテキスト・ツー・イメージ生成の両面から得られる埋め込み空間について広範な実験を行った。
- 参考スコア(独自算出の注目度): 44.707144011189335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language models such as CLIP have demonstrated remarkable
effectiveness across a wide range of tasks. However, these models are typically
trained on web-scale data, which can introduce inappropriate content and lead
to the development of unsafe and biased behavior. This, in turn, hampers their
applicability in sensitive and trustworthy contexts and could raise significant
concern in their adoption. To overcome these limitations, we introduce a
methodology to make Vision-and-Language models safer by removing their
sensitivity to not-safe-for-work concepts. We show how this can be done by
distilling from a large language model which converts between safe and unsafe
sentences and which is fine-tuned starting from just 100 manually-curated
pairs. We conduct extensive experiments on the resulting embedding space for
both retrieval and text-to-image generation, where we show that our model can
also be properly employed with pre-trained image generators. Our source code
and trained models are available at: https://github.com/aimagelab/safe-clip.
- Abstract(参考訳): CLIPのようなビジョン・アンド・ランゲージモデルは、幅広いタスクで顕著な効果を示している。
しかし、これらのモデルは通常、Webスケールのデータに基づいてトレーニングされ、不適切なコンテンツを導入し、安全で偏りのない振る舞いの開発につながる。
これによって、センシティブで信頼性の高いコンテキストで適用性が損なわれ、採用に重大な懸念がもたらされる可能性がある。
これらの制約を克服するため,我々は,非セーフな作業概念に対する感度をなくし,視覚・言語モデルの安全性を高める手法を提案する。
安全な文と安全でない文を変換し、手作業で計算した100組のペアから微調整する大規模言語モデルからこれを蒸留する方法を示す。
検索とテキスト対画像生成のための埋め込み空間を広範囲に実験し,本モデルが事前学習した画像生成装置でも適切に利用できることを示す。
ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/safe-clip.com/で利用可能です。
関連論文リスト
- Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually [3.69611312621848]
ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。
主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。
難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
論文 参考訳(メタデータ) (2024-01-19T21:38:18Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image
Generation [86.65991476980648]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Inferring Offensiveness In Images From Natural Language Supervision [20.294073012815854]
ウェブから自動的に取り除かれた大規模な画像データセットには、カテゴリや攻撃的なイメージといった軽蔑的な用語が含まれる可能性がある。
我々は、事前学習されたトランスフォーマー自体が、大規模ビジョンデータセットの自動キュレーションのための方法論を提供することを示した。
論文 参考訳(メタデータ) (2021-10-08T16:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。