論文の概要: TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2604.15967v1
- Date: Fri, 17 Apr 2026 11:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.897851
- Title: TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models
- Title(参考訳): TwoHamsters: テキスト-画像モデルにおけるマルチコンセプト構成不安全のベンチマーク
- Authors: Chaoshuo Zhang, Yibo Liang, Mengke Tian, Chenhao Lin, Zhengyu Zhao, Le Yang, Chong Zhang, Yang Zhang, Chao Shen,
- Abstract要約: 我々は、新しい脆弱性を特定し、形式化する: マルチコンセプト構成不安全(MCCU)
TwoHamstersでは、FLUXはMCCU生成の成功率99.52%、LLaVA-Guardは41.06%しかリコールできない。
- 参考スコア(独自算出の注目度): 27.586728190610803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable synthesis capabilities of text-to-image (T2I) models, safeguarding them against content violations remains a persistent challenge. Existing safety alignments primarily focus on explicit malicious concepts, often overlooking the subtle yet critical risks of compositional semantics. To address this oversight, we identify and formalize a novel vulnerability: Multi-Concept Compositional Unsafety (MCCU), where unsafe semantics stem from the implicit associations of individually benign concepts. Based on this formulation, we introduce TwoHamsters, a comprehensive benchmark comprising 17.5k prompts curated to probe MCCU vulnerabilities. Through a rigorous evaluation of 10 state-of-the-art models and 16 defense mechanisms, our analysis yields 8 pivotal insights. In particular, we demonstrate that current T2I models and defense mechanisms face severe MCCU risks: on TwoHamsters, FLUX achieves an MCCU generation success rate of 99.52%, while LLaVA-Guard only attains a recall of 41.06%, highlighting a critical limitation of the current paradigm for managing hazardous compositional generation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの顕著な合成機能にもかかわらず、コンテンツ違反に対してそれらを保護することは永続的な課題である。
既存の安全アライメントは主に明示的な悪質な概念に焦点を当てており、しばしば構成意味論の微妙で批判的なリスクを見落としている。
マルチコンセプト構成不安全(MCCU: Multi-Concept Compositional Unsafety)とは、個々の良心的な概念の暗黙的な関連から生じる、安全でない意味論である。
この定式化に基づいて、MCCUの脆弱性を調査するための17.5kプロンプトからなる総合ベンチマークであるTwoHamsterを紹介した。
10の最先端モデルと16の防御機構の厳密な評価を通じて,本分析は8つの重要な洞察を得た。
特に、現在のT2Iモデルと防御機構は、TwoHamstersでは、FLUXがMCCU生成の成功率99.52%を達成し、LLaVA-Guardは41.06%のリコールしか達成せず、現在の危険な構成生成を管理するためのパラダイムの重要な限界を浮き彫りにしている。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - MacPrompt: Maraconic-guided Jailbreak against Text-to-Image Models [21.21184947590066]
我々は、新しいブラックボックスとクロスランガル攻撃であるMacPromptを紹介し、これまで見過ごされていたT2Iの安全性メカニズムの脆弱性を明らかにする。
MacPromptは、有害な用語の言語間文字レベルの組換えを実行することで、逆のプロンプトを構築する。
性的関係のあるコンテンツでは92%、暴力では90%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-01-12T02:16:12Z) - VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety [3.1109025622085693]
マルチモーダル安全性を評価する包括的フレームワークであるVision Language Safety Understandingを提案する。
11種類の最先端モデルについて評価した結果, 系統的な共同理解の失敗が判明した。
我々のフレームワークは、現在のモデルにおける共同画像テキスト理解とアライメントギャップの弱点を明らかにする。
論文 参考訳(メタデータ) (2025-10-21T01:30:31Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [91.55634905861827]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。