Fugu-MT 論文翻訳(概要): UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

論文の概要: UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

arxiv url: http://arxiv.org/abs/2405.03486v1
Date: Mon, 6 May 2024 13:57:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 13:36:52.036869
Title: UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images
Title（参考訳）: UnsafeBench: リアルタイムおよびAI生成画像上の画像安全分類器のベンチマーク
Authors: Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou, Yang Zhang,
Abstract要約: 画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。まず、安全または安全でないと注釈付けされた10Kの現実世界とAI生成画像の大規模なデータセットをキュレートする。次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。我々は、現実世界とAIが生成する安全でない画像の11つのカテゴリを効果的に識別する、AspectiveVisionと呼ばれる包括的な画像モデレーションツールを実装した。
参考スコア（独自算出の注目度）: 29.913089752247362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image safety classifiers play an important role in identifying and mitigating the spread of unsafe images online (e.g., images including violence, hateful rhetoric, etc.). At the same time, with the advent of text-to-image models and increasing concerns about the safety of AI models, developers are increasingly relying on image safety classifiers to safeguard their models. Yet, the performance of current image safety classifiers remains unknown for real-world and AI-generated images. To bridge this research gap, in this work, we propose UnsafeBench, a benchmarking framework that evaluates the effectiveness and robustness of image safety classifiers. First, we curate a large dataset of 10K real-world and AI-generated images that are annotated as safe or unsafe based on a set of 11 unsafe categories of images (sexual, violent, hateful, etc.). Then, we evaluate the effectiveness and robustness of five popular image safety classifiers, as well as three classifiers that are powered by general-purpose visual language models. Our assessment indicates that existing image safety classifiers are not comprehensive and effective enough in mitigating the multifaceted problem of unsafe images. Also, we find that classifiers trained only on real-world images tend to have degraded performance when applied to AI-generated images. Motivated by these findings, we design and implement a comprehensive image moderation tool called PerspectiveVision, which effectively identifies 11 categories of real-world and AI-generated unsafe images. The best PerspectiveVision model achieves an overall F1-Score of 0.810 on six evaluation datasets, which is comparable with closed-source and expensive state-of-the-art models like GPT-4V. UnsafeBench and PerspectiveVision can aid the research community in better understanding the landscape of image safety classification in the era of generative AI.
Abstract（参考訳）: 画像安全分類器は、オンラインでの安全でない画像(例えば、暴力、憎悪的なレトリックなどを含む画像)の拡散を識別し緩和する上で重要な役割を担っている。同時に、テキスト・ツー・イメージモデルの出現とAIモデルの安全性に対する懸念の高まりにより、開発者はモデルを保護するために画像安全分類器をますます頼りにしている。しかし、実際の画像やAI生成画像では、現在の画像安全分類器の性能は分かっていない。この研究ギャップを埋めるために,画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。まず、安全でない画像の11のカテゴリ(性的、暴力的、憎しみなど)に基づいて、安全または安全でないと注釈付けされた10Kの現実世界およびAI生成画像の大規模なデータセットをキュレートする。次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。既存の画像安全分類器は、安全でない画像の多面的問題を緩和するのに十分な包括的かつ効果的ではないことを示す。また,実世界の画像にのみ訓練された分類器は,AI生成画像に適用した場合,性能が低下する傾向にある。これらの知見に触発されて、我々は、現実世界とAI生成した安全でない画像の11つのカテゴリを効果的に識別する、AspectiveVisionと呼ばれる総合的な画像モデレーションツールを設計し、実装した。最高の PerspectiveVision モデルは、6つの評価データセットで 0.810 の F1-Score を達成しており、これは GPT-4V のようなクローズドソースで高価な最先端モデルに匹敵する。 UnsafeBenchとAspectiveVisionは、生成AIの時代における画像安全分類の展望をより深く理解する上で、研究コミュニティに役立つ。

関連論文リスト

HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
Not Just Text: Uncovering Vision Modality Typographic Threats in Image Generation Models [26.681274483708165]
本稿では,様々な画像生成モデルが視覚モダリティ内の脅威の影響を受けやすいことを明らかにするために,タイポグラフィー攻撃という手法を用いる。また,視覚的モダリティの脅威に直面した既存手法の防御性能を評価し,その非効率性を明らかにする。
論文参考訳（メタデータ） (2024-12-07T04:55:39Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
A Sanity Check for AI-generated Image Detection [49.08585395873425]
我々はAI生成画像を検出するAI生成画像検出装置(AI生成画像検出装置)を提案する。 AIDEは最先端の手法を+3.5%、+4.6%改善した。
論文参考訳（メタデータ） (2024-06-27T17:59:49Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Counterfactual Image Generation for adversarially robust and interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文参考訳（メタデータ） (2023-10-01T18:50:29Z)
SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文参考訳（メタデータ） (2023-09-25T13:20:15Z)
Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge [32.140659176912735]
テキスト条件付き画像生成モデルは、最近、画像の品質とアライメント結果に驚くべき成果を上げている。非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。 Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。収集したプロンプトと対応する画像の解析は,入力フィルタの脆弱さを実証し,現在の生成画像モデルにおける系統的安全性問題に関するさらなる知見を提供する。
論文参考訳（メタデータ） (2023-09-20T18:25:44Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文参考訳（メタデータ） (2023-09-02T13:32:14Z)
Adversarially-Aware Robust Object Detector [85.10894272034135]
本稿では,ロバスト検出器 (RobustDet) を提案する。本モデルは, クリーン画像の検出能力を維持しながら, 傾きを効果的に解き, 検出堅牢性を著しく向上させる。
論文参考訳（メタデータ） (2022-07-13T13:59:59Z)
Deep Bayesian Image Set Classification: A Defence Approach against Adversarial Attacks [32.48820298978333]
ディープニューラルネットワーク(DNN)は、敵にほぼ自信を持って騙される可能性がある。実際には、敵対的な例として知られる、注意深く摂動された画像に対するディープラーニングシステムの脆弱性は、物理世界のアプリケーションに深刻なセキュリティ上の脅威をもたらす。本稿では,幅広い敵攻撃に対する防御フレームワークとして,頑健なベイズ画像集合分類を提案する。
論文参考訳（メタデータ） (2021-08-23T14:52:44Z)
Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文参考訳（メタデータ） (2021-04-30T14:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。