論文の概要: $PC^2$: Politically Controversial Content Generation via Jailbreaking Attacks on GPT-based Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2601.05150v2
- Date: Thu, 15 Jan 2026 12:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.228409
- Title: $PC^2$: Politically Controversial Content Generation via Jailbreaking Attacks on GPT-based Text-to-Image Models
- Title(参考訳): $PC^2$: GPTベースのテキスト・画像モデルにおけるジェイルブレイク攻撃による政治的論争コンテンツ生成
- Authors: Wonwoo Choi, Minjae Seo, Minkyoo Song, Hwanjo Heo, Seungwon Shin, Myoungsung You,
- Abstract要約: 公共の人物の描写など政治的に有害な内容は、偽ニュースやプロパガンダのために武器化された場合、深刻な脅威となる。
我々は、T2Iモデルのための最初のブラックボックス政治ジェイルブレイクフレームワークである$PC2$を提案する。
これは、安全フィルタが言語的文脈に基づいて政治的感受性を評価するという、新たな脆弱性を利用する。
- 参考スコア(独自算出の注目度): 8.433171058255512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of text-to-image (T2I) models has enabled high-fidelity visual synthesis on a global scale. However, these advancements have introduced significant security risks, particularly regarding the generation of harmful content. Politically harmful content, such as fabricated depictions of public figures, poses severe threats when weaponized for fake news or propaganda. Despite its criticality, the robustness of current T2I safety filters against such politically motivated adversarial prompting remains underexplored. In response, we propose $PC^2$, the first black-box political jailbreaking framework for T2I models. It exploits a novel vulnerability where safety filters evaluate political sensitivity based on linguistic context. $PC^2$ operates through: (1) Identity-Preserving Descriptive Mapping to obfuscate sensitive keywords into neutral descriptions, and (2) Geopolitically Distal Translation to map these descriptions into fragmented, low-sensitivity languages. This strategy prevents filters from constructing toxic relationships between political entities within prompts, effectively bypassing detection. We construct a benchmark of 240 politically sensitive prompts involving 36 public figures. Evaluation on commercial T2I models, specifically GPT-series, shows that while all original prompts are blocked, $PC^2$ achieves attack success rates of up to 86%.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの急速な進化により、世界規模で高忠実な視覚合成が可能になった。
しかし、これらの進歩は、特に有害なコンテンツの発生に関して、重大なセキュリティリスクをもたらしている。
公共の人物の描写など政治的に有害な内容は、偽ニュースやプロパガンダのために武器化された場合、深刻な脅威となる。
その批判にもかかわらず、現在のT2Iの安全フィルターが政治的に動機づけられた敵対的プロンプトに対して頑丈であることは、未解明のままである。
そこで我々は,T2Iモデルのための最初のブラックボックス政治ジェイルブレイクフレームワークである$PC^2$を提案する。
これは、安全フィルタが言語的文脈に基づいて政治的感受性を評価するという、新たな脆弱性を利用する。
1) センシティブなキーワードを中性的な記述に難読化するためのID保存記述型マッピング、2) これらの記述を断片的で低感度な言語にマッピングするためのジオポリティクス・ディタル翻訳。
この戦略は、フィルターがプロンプト内で政治的実体間の有害な関係を構築するのを防ぎ、検出を効果的に回避する。
我々は、36人の公開人物を含む240の政治的に敏感なプロンプトのベンチマークを構築した。
商用T2Iモデル、特にGPTシリーズの評価は、全てのオリジナルのプロンプトがブロックされている一方で、$PC^2$は攻撃成功率を最大86%まで達成していることを示している。
関連論文リスト
- Are LLMs Good Safety Agents or a Propaganda Engine? [74.88607730071483]
PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。
PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。
1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。
論文 参考訳(メタデータ) (2025-11-28T13:36:00Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z) - Incivility and Rigidity: Evaluating the Risks of Fine-Tuning LLMs for Political Argumentation [12.686044001239708]
Twitter(現在のX)やRedditなどのプラットフォームでのインキュビティは、AIシステムの開発を複雑にしている。
コントラストのある2つの政治談話データセットを微調整したtextitGPT-3.5 による実験を行った。
論文 参考訳(メタデータ) (2024-11-25T15:28:11Z) - Position: Towards Implicit Prompt For Text-To-Image Models [57.00716011456852]
本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
論文 参考訳(メタデータ) (2024-03-04T15:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。