論文の概要: Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually
- arxiv url: http://arxiv.org/abs/2401.11035v1
- Date: Fri, 19 Jan 2024 21:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:17:36.336867
- Title: Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually
- Title(参考訳): 画像保護:条件付き視覚言語モデルによる推論と安全でないコンテンツの隠蔽
- Authors: Mazal Bethany, Brandon Wherry, Nishant Vishwamitra, Peyman Najafirad
- Abstract要約: ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。
主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。
難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
- 参考スコア(独自算出の注目度): 3.69611312621848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms are being increasingly used by malicious actors to
share unsafe content, such as images depicting sexual activity, cyberbullying,
and self-harm. Consequently, major platforms use artificial intelligence (AI)
and human moderation to obfuscate such images to make them safer. Two critical
needs for obfuscating unsafe images is that an accurate rationale for
obfuscating image regions must be provided, and the sensitive regions should be
obfuscated (\textit{e.g.} blurring) for users' safety. This process involves
addressing two key problems: (1) the reason for obfuscating unsafe images
demands the platform to provide an accurate rationale that must be grounded in
unsafe image-specific attributes, and (2) the unsafe regions in the image must
be minimally obfuscated while still depicting the safe regions. In this work,
we address these key issues by first performing visual reasoning by designing a
visual reasoning model (VLM) conditioned on pre-trained unsafe image
classifiers to provide an accurate rationale grounded in unsafe image
attributes, and then proposing a counterfactual explanation algorithm that
minimally identifies and obfuscates unsafe regions for safe viewing, by first
utilizing an unsafe image classifier attribution matrix to guide segmentation
for a more optimal subregion segmentation followed by an informed greedy search
to determine the minimum number of subregions required to modify the
classifier's output based on attribution score. Extensive experiments on
uncurated data from social networks emphasize the efficacy of our proposed
method. We make our code available at:
https://github.com/SecureAIAutonomyLab/ConditionalVLM
- Abstract(参考訳): ソーシャルメディアのプラットフォームは、性的活動、サイバーいじめ、自傷などの画像など、悪意あるアクターが安全でないコンテンツをシェアするためにますます利用されている。
そのため、主要なプラットフォームでは、ai(artificial intelligence)と人間のモデレーションを使用して、画像の安全性を損なう。
非安全画像の難読化に対する2つの重要なニーズは、画像領域の難読化の正確な根拠を提供する必要があり、ユーザの安全のために感度の高い領域を難読化する必要があることである。
このプロセスでは,(1) 安全でない画像の難読化の理由として, 安全でない画像固有の属性を根拠とした正確な根拠の提供,(2) 安全でない領域を最小限の難読化で表現しなければならない,という2つの問題に対処する。
In this work, we address these key issues by first performing visual reasoning by designing a visual reasoning model (VLM) conditioned on pre-trained unsafe image classifiers to provide an accurate rationale grounded in unsafe image attributes, and then proposing a counterfactual explanation algorithm that minimally identifies and obfuscates unsafe regions for safe viewing, by first utilizing an unsafe image classifier attribution matrix to guide segmentation for a more optimal subregion segmentation followed by an informed greedy search to determine the minimum number of subregions required to modify the classifier's output based on attribution score.
ソーシャルネットワークからの未処理データに対する大規模な実験は,提案手法の有効性を強調した。
https://github.com/SecureAIAutonomyLab/ConditionalVLM
関連論文リスト
- Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models [42.19184265811366]
本研究では,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。
安全な文と安全でない文の変換を訓練した大規模言語モデルから得られた合成データに対して,CLIPモデルを微調整することで,これを実現できることを示す。
論文 参考訳(メタデータ) (2023-11-27T19:02:17Z) - Recoverable Privacy-Preserving Image Classification through Noise-like
Adversarial Examples [26.026171363346975]
分類などのクラウドベースの画像関連サービスが重要になっている。
本研究では,新しいプライバシー保護画像分類手法を提案する。
暗号化された画像は、秘密鍵を使用して、高い忠実度(保存可能な)で元の形式に復号することができる。
論文 参考訳(メタデータ) (2023-10-19T13:01:58Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - PRO-Face S: Privacy-preserving Reversible Obfuscation of Face Images via
Secure Flow [69.78820726573935]
保護フローベースモデルを用いて,プライバシ保護による顔画像の可逆難読化(Reversible Obfuscation of Face image)を略してpro-Face Sと命名する。
本フレームワークでは、Invertible Neural Network(INN)を使用して、入力画像と、その事前難読化されたフォームとを処理し、事前難読化された画像と視覚的に近似したプライバシー保護された画像を生成する。
論文 参考訳(メタデータ) (2023-07-18T10:55:54Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Benchmarking Robustness to Adversarial Image Obfuscations [22.784762155781436]
悪意あるアクターは、機械学習モデルが正しい決定に達するのを防ぐために、イメージを侵害するポリシーを難なくすることができる。
ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。
論文 参考訳(メタデータ) (2023-01-30T15:36:44Z) - Protect, Show, Attend and Tell: Empowering Image Captioning Models with
Ownership Protection [24.50702655120905]
本稿では,現在の電子透かしフレームワークが画像キャプション作業を保護するには不十分であることを実証する。
本稿では,リカレントニューラルネットワークの隠れメモリ状態に2つの異なる埋め込み方式を提案する。
我々の知る限りでは、画像キャプションタスクの所有権保護を最初に提案する作業である。
論文 参考訳(メタデータ) (2020-08-25T13:48:35Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。