Fugu-MT 論文翻訳(概要): UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

論文の概要: UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

arxiv url: http://arxiv.org/abs/2405.03486v2
Date: Thu, 5 Sep 2024 20:23:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 20:23:44.292267
Title: UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images
Title（参考訳）: UnsafeBench: リアルタイムおよびAI生成画像上の画像安全分類器のベンチマーク
Authors: Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou, Yang Zhang,
Abstract要約: 画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。まず、安全または安全でないと注釈付けされた10Kの現実世界とAI生成画像の大規模なデータセットをキュレートする。次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
参考スコア（独自算出の注目度）: 29.913089752247362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the advent of text-to-image models and concerns about their misuse, developers are increasingly relying on image safety classifiers to moderate their generated unsafe images. Yet, the performance of current image safety classifiers remains unknown for both real-world and AI-generated images. In this work, we propose UnsafeBench, a benchmarking framework that evaluates the effectiveness and robustness of image safety classifiers, with a particular focus on the impact of AI-generated images on their performance. First, we curate a large dataset of 10K real-world and AI-generated images that are annotated as safe or unsafe based on a set of 11 unsafe categories of images (sexual, violent, hateful, etc.). Then, we evaluate the effectiveness and robustness of five popular image safety classifiers, as well as three classifiers that are powered by general-purpose visual language models. Our assessment indicates that existing image safety classifiers are not comprehensive and effective enough to mitigate the multifaceted problem of unsafe images. Also, there exists a distribution shift between real-world and AI-generated images in image qualities, styles, and layouts, leading to degraded effectiveness and robustness. Motivated by these findings, we build a comprehensive image moderation tool called PerspectiveVision, which addresses the main drawbacks of existing classifiers with improved effectiveness and robustness, especially on AI-generated images. UnsafeBench and PerspectiveVision can aid the research community in better understanding the landscape of image safety classification in the era of generative AI.
Abstract（参考訳）: テキスト・ツー・イメージのモデルの出現と、その誤用に関する懸念により、開発者は、生成した安全でないイメージを緩和するために、画像安全分類器をますます頼りにしている。しかし、実際の画像とAI生成画像の両方において、現在の画像安全分類器の性能は依然として不明である。本研究では,画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。まず、安全でない画像の11のカテゴリ(性的、暴力的、憎しみなど)に基づいて、安全または安全でないと注釈付けされた10Kの現実世界およびAI生成画像の大規模なデータセットをキュレートする。次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。既存の画像安全分類器は、安全でない画像の多面的問題を緩和するのに十分な包括的かつ効果的ではないことを示す。また、実世界の画像とAI生成画像の間には、画質、スタイル、レイアウトの分布シフトがあり、それによって効率と堅牢性が低下する。これらの発見に触発されて、我々は、特にAI生成画像において、既存の分類器の主な欠点に対処する、包括的画像モデレーションツールであるAspectiveVisionを構築した。 UnsafeBenchとAspectiveVisionは、生成AIの時代における画像安全分類の展望をより深く理解する上で、研究コミュニティに役立つ。

関連論文リスト

SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。 SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文参考訳（メタデータ） (2026-01-13T15:01:38Z)
A Dual-Branch CNN for Robust Detection of AI-Generated Facial Forgeries [4.313893060699182]
顔偽造技術は、AIセキュリティ、デジタルメディアの完全性、および公的な信頼に重大な脅威をもたらす。顔偽造検出のための新しい二分岐畳み込みニューラルネットワークを提案する。 4つの代表法から生成された鍛造画像を含むDiFFベンチマークを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2025-10-28T17:06:40Z)
SafeVision: Efficient Image Guardrail with Robust Policy Adherence and Explainability [49.074914896839466]
我々は,適応性と透明性を高めるために人間ライクな推論を統合する新しいイメージガードレールであるSafeVisionを紹介する。提案手法には,効率的なデータ収集・生成フレームワーク,ポリシフォロートレーニングパイプライン,カスタマイズされた損失関数が組み込まれている。 SafeVisionは、異なるベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-10-28T00:35:59Z)
SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation [5.313750874857107]
安全ポリシーに関連する機能にのみ異なる、対物的な画像を生成するためのフレームワークであるSafetyPairsを紹介する。 SafetyPairsを使って、評価データの強力なソースとなる新しい安全ベンチマークを構築します。我々は,9つの安全カテゴリーの分類学にまたがる3,020以上のSafetyPair画像を含むベンチマークを公表した。
論文参考訳（メタデータ） (2025-10-24T03:19:48Z)
SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。 SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。 SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文参考訳（メタデータ） (2025-10-05T10:24:48Z)
Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。 RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文参考訳（メタデータ） (2025-09-11T06:15:52Z)
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
Not Just Text: Uncovering Vision Modality Typographic Threats in Image Generation Models [26.681274483708165]
本稿では,様々な画像生成モデルが視覚モダリティ内の脅威の影響を受けやすいことを明らかにするために,タイポグラフィー攻撃という手法を用いる。また,視覚的モダリティの脅威に直面した既存手法の防御性能を評価し,その非効率性を明らかにする。
論文参考訳（メタデータ） (2024-12-07T04:55:39Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
A Sanity Check for AI-generated Image Detection [49.08585395873425]
我々はAI生成画像を検出するAI生成画像検出装置(AI生成画像検出装置)を提案する。 AIDEは最先端の手法を+3.5%、+4.6%改善した。
論文参考訳（メタデータ） (2024-06-27T17:59:49Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Counterfactual Image Generation for adversarially robust and interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文参考訳（メタデータ） (2023-10-01T18:50:29Z)
SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文参考訳（メタデータ） (2023-09-25T13:20:15Z)
Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge [32.140659176912735]
テキスト条件付き画像生成モデルは、最近、画像の品質とアライメント結果に驚くべき成果を上げている。非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。 Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。収集したプロンプトと対応する画像の解析は,入力フィルタの脆弱さを実証し,現在の生成画像モデルにおける系統的安全性問題に関するさらなる知見を提供する。
論文参考訳（メタデータ） (2023-09-20T18:25:44Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文参考訳（メタデータ） (2023-09-02T13:32:14Z)
Adversarially-Aware Robust Object Detector [85.10894272034135]
本稿では,ロバスト検出器 (RobustDet) を提案する。本モデルは, クリーン画像の検出能力を維持しながら, 傾きを効果的に解き, 検出堅牢性を著しく向上させる。
論文参考訳（メタデータ） (2022-07-13T13:59:59Z)
Deep Bayesian Image Set Classification: A Defence Approach against Adversarial Attacks [32.48820298978333]
ディープニューラルネットワーク(DNN)は、敵にほぼ自信を持って騙される可能性がある。実際には、敵対的な例として知られる、注意深く摂動された画像に対するディープラーニングシステムの脆弱性は、物理世界のアプリケーションに深刻なセキュリティ上の脅威をもたらす。本稿では,幅広い敵攻撃に対する防御フレームワークとして,頑健なベイズ画像集合分類を提案する。
論文参考訳（メタデータ） (2021-08-23T14:52:44Z)
Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文参考訳（メタデータ） (2021-04-30T14:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。