論文の概要: SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation
- arxiv url: http://arxiv.org/abs/2510.21120v1
- Date: Fri, 24 Oct 2025 03:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.372543
- Title: SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation
- Title(参考訳): SafetyPairs: 安全クリティカルな画像特徴を非現実的な画像生成で分離する
- Authors: Alec Helbling, Shruti Palaskar, Kundan Krishna, Polo Chau, Leon Gatys, Joseph Yitan Cheng,
- Abstract要約: 安全ポリシーに関連する機能にのみ異なる、対物的な画像を生成するためのフレームワークであるSafetyPairsを紹介する。
SafetyPairsを使って、評価データの強力なソースとなる新しい安全ベンチマークを構築します。
我々は,9つの安全カテゴリーの分類学にまたがる3,020以上のSafetyPair画像を含むベンチマークを公表した。
- 参考スコア(独自算出の注目度): 5.313750874857107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What exactly makes a particular image unsafe? Systematically differentiating between benign and problematic images is a challenging problem, as subtle changes to an image, such as an insulting gesture or symbol, can drastically alter its safety implications. However, existing image safety datasets are coarse and ambiguous, offering only broad safety labels without isolating the specific features that drive these differences. We introduce SafetyPairs, a scalable framework for generating counterfactual pairs of images, that differ only in the features relevant to the given safety policy, thus flipping their safety label. By leveraging image editing models, we make targeted changes to images that alter their safety labels while leaving safety-irrelevant details unchanged. Using SafetyPairs, we construct a new safety benchmark, which serves as a powerful source of evaluation data that highlights weaknesses in vision-language models' abilities to distinguish between subtly different images. Beyond evaluation, we find our pipeline serves as an effective data augmentation strategy that improves the sample efficiency of training lightweight guard models. We release a benchmark containing over 3,020 SafetyPair images spanning a diverse taxonomy of 9 safety categories, providing the first systematic resource for studying fine-grained image safety distinctions.
- Abstract(参考訳): 特定の画像が安全でない理由?
良性のイメージと問題のあるイメージを体系的に区別することは難しい問題であり、侮辱的なジェスチャーやシンボルといったイメージの微妙な変更は、その安全性に大きく影響する可能性がある。
しかし、既存の画像安全データセットは粗くあいまいであり、これらの違いを引き起こす特定の特徴を分離することなく、幅広い安全ラベルのみを提供する。
提案するセーフティペアは,対象の安全ポリシーに関連する機能のみが異なるため,その安全性ラベルを反転させるという,対物画像を生成するスケーラブルなフレームワークである。
画像編集モデルを活用することで、安全関連の詳細をそのまま残しながら、安全ラベルを変更する画像にターゲット変更を加える。
SafetyPairsを使って新しい安全ベンチマークを構築した。このベンチマークは、視覚言語モデルの微妙な異なる画像の識別能力の弱点を浮き彫りにする、強力な評価データ源として機能する。
評価以外にも、私たちのパイプラインは、軽量ガードモデルのトレーニングのサンプル効率を改善する効果的なデータ拡張戦略として機能しています。
我々は,9つの安全カテゴリーの分類分類にまたがる3,020以上のSafetyPair画像を含むベンチマークを公表した。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images [24.447395464275942]
画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。
まず、安全または安全でないと注釈付けされた10Kの現実世界とAI生成画像の大規模なデータセットをキュレートする。
次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2024-05-06T13:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。