論文の概要: UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images
- arxiv url: http://arxiv.org/abs/2405.03486v1
- Date: Mon, 6 May 2024 13:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:36:52.036869
- Title: UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images
- Title(参考訳): UnsafeBench: リアルタイムおよびAI生成画像上の画像安全分類器のベンチマーク
- Authors: Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou, Yang Zhang,
- Abstract要約: 画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。
まず、安全または安全でないと注釈付けされた10Kの現実世界とAI生成画像の大規模なデータセットをキュレートする。
次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
我々は、現実世界とAIが生成する安全でない画像の11つのカテゴリを効果的に識別する、AspectiveVisionと呼ばれる包括的な画像モデレーションツールを実装した。
- 参考スコア(独自算出の注目度): 29.913089752247362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image safety classifiers play an important role in identifying and mitigating the spread of unsafe images online (e.g., images including violence, hateful rhetoric, etc.). At the same time, with the advent of text-to-image models and increasing concerns about the safety of AI models, developers are increasingly relying on image safety classifiers to safeguard their models. Yet, the performance of current image safety classifiers remains unknown for real-world and AI-generated images. To bridge this research gap, in this work, we propose UnsafeBench, a benchmarking framework that evaluates the effectiveness and robustness of image safety classifiers. First, we curate a large dataset of 10K real-world and AI-generated images that are annotated as safe or unsafe based on a set of 11 unsafe categories of images (sexual, violent, hateful, etc.). Then, we evaluate the effectiveness and robustness of five popular image safety classifiers, as well as three classifiers that are powered by general-purpose visual language models. Our assessment indicates that existing image safety classifiers are not comprehensive and effective enough in mitigating the multifaceted problem of unsafe images. Also, we find that classifiers trained only on real-world images tend to have degraded performance when applied to AI-generated images. Motivated by these findings, we design and implement a comprehensive image moderation tool called PerspectiveVision, which effectively identifies 11 categories of real-world and AI-generated unsafe images. The best PerspectiveVision model achieves an overall F1-Score of 0.810 on six evaluation datasets, which is comparable with closed-source and expensive state-of-the-art models like GPT-4V. UnsafeBench and PerspectiveVision can aid the research community in better understanding the landscape of image safety classification in the era of generative AI.
- Abstract(参考訳): 画像安全分類器は、オンラインでの安全でない画像(例えば、暴力、憎悪的なレトリックなどを含む画像)の拡散を識別し緩和する上で重要な役割を担っている。
同時に、テキスト・ツー・イメージモデルの出現とAIモデルの安全性に対する懸念の高まりにより、開発者はモデルを保護するために画像安全分類器をますます頼りにしている。
しかし、実際の画像やAI生成画像では、現在の画像安全分類器の性能は分かっていない。
この研究ギャップを埋めるために,画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。
まず、安全でない画像の11のカテゴリ(性的、暴力的、憎しみなど)に基づいて、安全または安全でないと注釈付けされた10Kの現実世界およびAI生成画像の大規模なデータセットをキュレートする。
次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
既存の画像安全分類器は、安全でない画像の多面的問題を緩和するのに十分な包括的かつ効果的ではないことを示す。
また,実世界の画像にのみ訓練された分類器は,AI生成画像に適用した場合,性能が低下する傾向にある。
これらの知見に触発されて、我々は、現実世界とAI生成した安全でない画像の11つのカテゴリを効果的に識別する、AspectiveVisionと呼ばれる総合的な画像モデレーションツールを設計し、実装した。
最高の PerspectiveVision モデルは、6つの評価データセットで 0.810 の F1-Score を達成しており、これは GPT-4V のようなクローズドソースで高価な最先端モデルに匹敵する。
UnsafeBenchとAspectiveVisionは、生成AIの時代における画像安全分類の展望をより深く理解する上で、研究コミュニティに役立つ。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - State-of-the-Art in Nudity Classification: A Comparative Analysis [5.76536165136814]
本稿では,ヌードの有無に基づいて画像の分類を行う既存のヌード分類手法の比較分析を行う。
この研究は、現在の評価データセットの限界を特定し、より多様で挑戦的なデータセットの必要性を強調している。
本研究は,プラットフォーム利用者の安全と幸福を確保するため,画像分類モデルの改善を継続的に進めることの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-26T21:24:55Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via
Substitution [22.882337899780968]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - ArtiFact: A Large-Scale Dataset with Artificial and Factual Images for
Generalizable and Robust Synthetic Image Detection [0.3779860024918729]
本稿では,実世界の障害に直面した合成画像検出器の汎用性とロバスト性を評価する。
フィルタストライド削減戦略と組み合わせたマルチクラス分類方式は,社会的プラットフォーム障害に対処する。
ICIP 2022のIEEE VIPカップチャレンジでは、テスト1で8.34%、テスト2で1.26%、テスト3で15.08%と、他のトップチームよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-02-23T12:40:36Z) - Deep Bayesian Image Set Classification: A Defence Approach against
Adversarial Attacks [32.48820298978333]
ディープニューラルネットワーク(DNN)は、敵にほぼ自信を持って騙される可能性がある。
実際には、敵対的な例として知られる、注意深く摂動された画像に対するディープラーニングシステムの脆弱性は、物理世界のアプリケーションに深刻なセキュリティ上の脅威をもたらす。
本稿では,幅広い敵攻撃に対する防御フレームワークとして,頑健なベイズ画像集合分類を提案する。
論文 参考訳(メタデータ) (2021-08-23T14:52:44Z) - Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep
Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。
一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。
画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文 参考訳(メタデータ) (2021-04-30T14:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。