論文の概要: T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model
- arxiv url: http://arxiv.org/abs/2510.22300v1
- Date: Sat, 25 Oct 2025 14:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.092277
- Title: T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model
- Title(参考訳): T2I-RiskyPrompt: テキスト・画像モデルの安全性評価・攻撃・防御のためのベンチマーク
- Authors: Chenyu Zhang, Tairen Zhang, Lanjun Wang, Ruidong Chen, Wenhui Li, Anan Liu,
- Abstract要約: 本稿では,T2Iモデルの安全性関連タスクを評価するベンチマークであるT2I-RiskyPromptを紹介する。
まず,6つの主要なカテゴリと14のきめ細かいサブカテゴリからなる階層型リスク分類法を開発した。
リスクのあるプロンプトを収集および注釈付けするためのパイプラインを構築し、各プロンプトには階層的なカテゴリラベルと詳細なリスク理由の両方がアノテートされる。
我々は,T2I-RiskyPromptに基づいて,T2Iモデル8モデル,9つの防御方法,5つの安全フィルタ,5つの攻撃戦略を総合的に評価する。
- 参考スコア(独自算出の注目度): 41.31194907935869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using risky text prompts, such as pornography and violent prompts, to test the safety of text-to-image (T2I) models is a critical task. However, existing risky prompt datasets are limited in three key areas: 1) limited risky categories, 2) coarse-grained annotation, and 3) low effectiveness. To address these limitations, we introduce T2I-RiskyPrompt, a comprehensive benchmark designed for evaluating safety-related tasks in T2I models. Specifically, we first develop a hierarchical risk taxonomy, which consists of 6 primary categories and 14 fine-grained subcategories. Building upon this taxonomy, we construct a pipeline to collect and annotate risky prompts. Finally, we obtain 6,432 effective risky prompts, where each prompt is annotated with both hierarchical category labels and detailed risk reasons. Moreover, to facilitate the evaluation, we propose a reason-driven risky image detection method that explicitly aligns the MLLM with safety annotations. Based on T2I-RiskyPrompt, we conduct a comprehensive evaluation of eight T2I models, nine defense methods, five safety filters, and five attack strategies, offering nine key insights into the strengths and limitations of T2I model safety. Finally, we discuss potential applications of T2I-RiskyPrompt across various research fields. The dataset and code are provided in https://github.com/datar001/T2I-RiskyPrompt.
- Abstract(参考訳): ポルノや暴力的なプロンプトなどの危険なテキストプロンプトを使用して、テキスト・ツー・イメージ(T2I)モデルの安全性をテストすることが重要な課題である。
しかし、既存の危険性の高いプロンプトデータセットは3つの重要な領域に限られている。
1) 限られたリスクカテゴリー。
2)粗粒度アノテーション、及び
3) 有効性は低い。
これらの制約に対処するために、T2Iモデルにおける安全関連タスクを評価するために設計された総合ベンチマークであるT2I-RiskyPromptを紹介する。
具体的には,まず,6つの主要なカテゴリと14のきめ細かいサブカテゴリからなる階層的リスク分類法を開発する。
この分類に基づいて、私たちはリスクのあるプロンプトを収集、注釈付けするためのパイプラインを構築します。
最後に、6,432の効果的なリスクプロンプトを取得し、各プロンプトに階層的なカテゴリラベルと詳細なリスク理由を付与する。
さらに,その評価を容易にするために,MLLMと安全アノテーションを明示的に一致させる,理由駆動型リスク画像検出手法を提案する。
T2I-RiskyPromptに基づいて,T2Iモデル8モデル,9つの防御方法,5つの安全フィルタ,5つの攻撃戦略を総合的に評価し,T2Iモデルの安全性の強さと限界について9つの重要な知見を提供する。
最後に、T2I-RiskyPromptの様々な研究分野への応用について論じる。
データセットとコードはhttps://github.com/datar001/T2I-RiskyPromptで提供されている。
関連論文リスト
- OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.6716695218951]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z) - Position: Towards Implicit Prompt For Text-To-Image Models [57.00716011456852]
本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
論文 参考訳(メタデータ) (2024-03-04T15:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。