Fugu-MT 論文翻訳(概要): Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually

論文の概要: Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually

arxiv url: http://arxiv.org/abs/2401.11035v1
Date: Fri, 19 Jan 2024 21:38:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 18:17:36.336867
Title: Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually
Title（参考訳）: 画像保護:条件付き視覚言語モデルによる推論と安全でないコンテンツの隠蔽
Authors: Mazal Bethany, Brandon Wherry, Nishant Vishwamitra, Peyman Najafirad
Abstract要約: ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
参考スコア（独自算出の注目度）: 3.69611312621848
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social media platforms are being increasingly used by malicious actors to share unsafe content, such as images depicting sexual activity, cyberbullying, and self-harm. Consequently, major platforms use artificial intelligence (AI) and human moderation to obfuscate such images to make them safer. Two critical needs for obfuscating unsafe images is that an accurate rationale for obfuscating image regions must be provided, and the sensitive regions should be obfuscated (\textit{e.g.} blurring) for users' safety. This process involves addressing two key problems: (1) the reason for obfuscating unsafe images demands the platform to provide an accurate rationale that must be grounded in unsafe image-specific attributes, and (2) the unsafe regions in the image must be minimally obfuscated while still depicting the safe regions. In this work, we address these key issues by first performing visual reasoning by designing a visual reasoning model (VLM) conditioned on pre-trained unsafe image classifiers to provide an accurate rationale grounded in unsafe image attributes, and then proposing a counterfactual explanation algorithm that minimally identifies and obfuscates unsafe regions for safe viewing, by first utilizing an unsafe image classifier attribution matrix to guide segmentation for a more optimal subregion segmentation followed by an informed greedy search to determine the minimum number of subregions required to modify the classifier's output based on attribution score. Extensive experiments on uncurated data from social networks emphasize the efficacy of our proposed method. We make our code available at: https://github.com/SecureAIAutonomyLab/ConditionalVLM
Abstract（参考訳）: ソーシャルメディアのプラットフォームは、性的活動、サイバーいじめ、自傷などの画像など、悪意あるアクターが安全でないコンテンツをシェアするためにますます利用されている。そのため、主要なプラットフォームでは、ai(artificial intelligence)と人間のモデレーションを使用して、画像の安全性を損なう。非安全画像の難読化に対する2つの重要なニーズは、画像領域の難読化の正確な根拠を提供する必要があり、ユーザの安全のために感度の高い領域を難読化する必要があることである。このプロセスでは,(1) 安全でない画像の難読化の理由として, 安全でない画像固有の属性を根拠とした正確な根拠の提供,(2) 安全でない領域を最小限の難読化で表現しなければならない,という2つの問題に対処する。 In this work, we address these key issues by first performing visual reasoning by designing a visual reasoning model (VLM) conditioned on pre-trained unsafe image classifiers to provide an accurate rationale grounded in unsafe image attributes, and then proposing a counterfactual explanation algorithm that minimally identifies and obfuscates unsafe regions for safe viewing, by first utilizing an unsafe image classifier attribution matrix to guide segmentation for a more optimal subregion segmentation followed by an informed greedy search to determine the minimum number of subregions required to modify the classifier's output based on attribution score. ソーシャルネットワークからの未処理データに対する大規模な実験は,提案手法の有効性を強調した。 https://github.com/SecureAIAutonomyLab/ConditionalVLM

関連論文リスト

SafeText: Safe Text-to-image Models via Aligning the Text Encoder [38.14026164194725]
テキスト・ツー・イメージモデルは、安全でないプロンプトが提示されたときに有害な画像を生成することができる。拡散モジュールではなくテキストエンコーダを微調整する新しいアライメント手法であるSafeTextを提案する。以上の結果から,SafeTextは画像に小さな影響を与えない有害な画像生成を効果的に防止し,安全なプロンプトを可能にすることが示唆された。
論文参考訳（メタデータ） (2025-02-28T01:02:57Z)
Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。 DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。 DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文参考訳（メタデータ） (2025-01-31T04:14:05Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models [42.19184265811366]
本研究では,NSFW入力に対する感度を低下させることにより,視覚・言語モデルの安全性を高める新しいアプローチを提案する。安全な文と安全でない文の変換を訓練した大規模言語モデルから得られた合成データに対して,CLIPモデルを微調整することで,これを実現できることを示す。
論文参考訳（メタデータ） (2023-11-27T19:02:17Z)
Recoverable Privacy-Preserving Image Classification through Noise-like Adversarial Examples [26.026171363346975]
分類などのクラウドベースの画像関連サービスが重要になっている。本研究では,新しいプライバシー保護画像分類手法を提案する。暗号化された画像は、秘密鍵を使用して、高い忠実度(保存可能な)で元の形式に復号することができる。
論文参考訳（メタデータ） (2023-10-19T13:01:58Z)
SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文参考訳（メタデータ） (2023-09-25T13:20:15Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
PRO-Face S: Privacy-preserving Reversible Obfuscation of Face Images via Secure Flow [69.78820726573935]
保護フローベースモデルを用いて,プライバシ保護による顔画像の可逆難読化(Reversible Obfuscation of Face image)を略してpro-Face Sと命名する。本フレームワークでは、Invertible Neural Network(INN)を使用して、入力画像と、その事前難読化されたフォームとを処理し、事前難読化された画像と視覚的に近似したプライバシー保護された画像を生成する。
論文参考訳（メタデータ） (2023-07-18T10:55:54Z)
Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文参考訳（メタデータ） (2023-06-06T13:41:37Z)
Benchmarking Robustness to Adversarial Image Obfuscations [22.784762155781436]
悪意あるアクターは、機械学習モデルが正しい決定に達するのを防ぐために、イメージを侵害するポリシーを難なくすることができる。 ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。
論文参考訳（メタデータ） (2023-01-30T15:36:44Z)
Protect, Show, Attend and Tell: Empowering Image Captioning Models with Ownership Protection [24.50702655120905]
本稿では,現在の電子透かしフレームワークが画像キャプション作業を保護するには不十分であることを実証する。本稿では,リカレントニューラルネットワークの隠れメモリ状態に2つの異なる埋め込み方式を提案する。我々の知る限りでは、画像キャプションタスクの所有権保護を最初に提案する作業である。
論文参考訳（メタデータ） (2020-08-25T13:48:35Z)
InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。我々はこの問題を新しい画像難読化フレームワークで解決する。提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文参考訳（メタデータ） (2020-05-20T19:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。