Fugu-MT 論文翻訳(概要): Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models

論文の概要: Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models

arxiv url: http://arxiv.org/abs/2311.16254v2
Date: Fri, 12 Apr 2024 09:37:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 19:25:50.698585
Title: Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models
Title（参考訳）: Safe-CLIP:視覚・言語モデルからNSFW概念を除去する
Authors: Samuele Poppi, Tobia Poppi, Federico Cocchi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
Abstract要約: 本研究では,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。安全な文と安全でない文の変換を訓練した大規模言語モデルから得られた合成データに対して,CLIPモデルを微調整することで,これを実現できることを示す。
参考スコア（独自算出の注目度）: 42.19184265811366
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale vision-and-language models, such as CLIP, are typically trained on web-scale data, which can introduce inappropriate content and lead to the development of unsafe and biased behavior. This, in turn, hampers their applicability in sensitive and trustworthy contexts and could raise significant concerns in their adoption. Our research introduces a novel approach to enhancing the safety of vision-and-language models by diminishing their sensitivity to NSFW (not safe for work) inputs. In particular, our methodology seeks to sever "toxic" linguistic and visual concepts, unlearning the linkage between unsafe linguistic or visual items and unsafe regions of the embedding space. We show how this can be done by fine-tuning a CLIP model on synthetic data obtained from a large language model trained to convert between safe and unsafe sentences, and a text-to-image generator. We conduct extensive experiments on the resulting embedding space for cross-modal retrieval, text-to-image, and image-to-text generation, where we show that our model can be remarkably employed with pre-trained generative models. Our source code and trained models are available at: https://github.com/aimagelab/safe-clip.
Abstract（参考訳）: CLIPのような大規模ビジョン・アンド・ランゲージモデルは通常、Webスケールのデータに基づいてトレーニングされ、不適切なコンテンツを導入し、安全で偏りのない振る舞いの開発につながる。これによって、センシティブで信頼性の高いコンテキストで適用性が損なわれ、採用に重大な懸念がもたらされる可能性がある。本研究は,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。特に,言語的・視覚的概念の「有害」を排除し,非安全な言語的・視覚的概念と組込み空間の安全でない領域との結びつきを学習する。安全な文と安全でない文の変換を訓練した大規模言語モデルとテキスト・ツー・イメージ・ジェネレータから得られた合成データに基づいて,CLIPモデルを微調整することで,これを実現できることを示す。本研究は、モーダル検索、テキスト・ツー・イメージ、画像・ツー・テキスト生成のための埋め込み空間に関する広範な実験を行い、本モデルが事前学習された生成モデルで著しく活用可能であることを示す。ソースコードとトレーニングされたモデルについては、https://github.com/aimagelab/safe-clip.comで公開しています。

関連論文リスト

SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。 SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。 SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文参考訳（メタデータ） (2025-10-05T10:24:48Z)
VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文参考訳（メタデータ） (2025-09-21T09:00:27Z)
Hyperbolic Safety-Aware Vision-Language Models [44.06996781749013]
双曲空間の本質的階層的特性を活用することによって、未学習から認知パラダイムへ移行する新しいアプローチを導入する。我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。我々のアプローチは、安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークも確立します。
論文参考訳（メタデータ） (2025-03-15T13:18:04Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文参考訳（メタデータ） (2024-10-04T19:37:56Z)
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。 T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文参考訳（メタデータ） (2024-07-17T08:19:11Z)
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文参考訳（メタデータ） (2024-05-24T07:44:27Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文参考訳（メタデータ） (2024-04-10T00:26:08Z)
FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文参考訳（メタデータ） (2023-08-08T14:03:08Z)
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文参考訳（メタデータ） (2023-03-30T17:58:11Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。