論文の概要: $PC^2$: Politically Controversial Content Generation via Jailbreaking Attacks on GPT-based Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2601.05150v2
- Date: Thu, 15 Jan 2026 12:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.228409
- Title: $PC^2$: Politically Controversial Content Generation via Jailbreaking Attacks on GPT-based Text-to-Image Models
- Title(参考訳): $PC^2$: GPTベースのテキスト・画像モデルにおけるジェイルブレイク攻撃による政治的論争コンテンツ生成
- Authors: Wonwoo Choi, Minjae Seo, Minkyoo Song, Hwanjo Heo, Seungwon Shin, Myoungsung You,
- Abstract要約: 公共の人物の描写など政治的に有害な内容は、偽ニュースやプロパガンダのために武器化された場合、深刻な脅威となる。
我々は、T2Iモデルのための最初のブラックボックス政治ジェイルブレイクフレームワークである$PC2$を提案する。
これは、安全フィルタが言語的文脈に基づいて政治的感受性を評価するという、新たな脆弱性を利用する。
- 参考スコア(独自算出の注目度): 8.433171058255512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of text-to-image (T2I) models has enabled high-fidelity visual synthesis on a global scale. However, these advancements have introduced significant security risks, particularly regarding the generation of harmful content. Politically harmful content, such as fabricated depictions of public figures, poses severe threats when weaponized for fake news or propaganda. Despite its criticality, the robustness of current T2I safety filters against such politically motivated adversarial prompting remains underexplored. In response, we propose $PC^2$, the first black-box political jailbreaking framework for T2I models. It exploits a novel vulnerability where safety filters evaluate political sensitivity based on linguistic context. $PC^2$ operates through: (1) Identity-Preserving Descriptive Mapping to obfuscate sensitive keywords into neutral descriptions, and (2) Geopolitically Distal Translation to map these descriptions into fragmented, low-sensitivity languages. This strategy prevents filters from constructing toxic relationships between political entities within prompts, effectively bypassing detection. We construct a benchmark of 240 politically sensitive prompts involving 36 public figures. Evaluation on commercial T2I models, specifically GPT-series, shows that while all original prompts are blocked, $PC^2$ achieves attack success rates of up to 86%.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの急速な進化により、世界規模で高忠実な視覚合成が可能になった。
しかし、これらの進歩は、特に有害なコンテンツの発生に関して、重大なセキュリティリスクをもたらしている。
公共の人物の描写など政治的に有害な内容は、偽ニュースやプロパガンダのために武器化された場合、深刻な脅威となる。
その批判にもかかわらず、現在のT2Iの安全フィルターが政治的に動機づけられた敵対的プロンプトに対して頑丈であることは、未解明のままである。
そこで我々は,T2Iモデルのための最初のブラックボックス政治ジェイルブレイクフレームワークである$PC^2$を提案する。
これは、安全フィルタが言語的文脈に基づいて政治的感受性を評価するという、新たな脆弱性を利用する。
1) センシティブなキーワードを中性的な記述に難読化するためのID保存記述型マッピング、2) これらの記述を断片的で低感度な言語にマッピングするためのジオポリティクス・ディタル翻訳。
この戦略は、フィルターがプロンプト内で政治的実体間の有害な関係を構築するのを防ぎ、検出を効果的に回避する。
我々は、36人の公開人物を含む240の政治的に敏感なプロンプトのベンチマークを構築した。
商用T2Iモデル、特にGPTシリーズの評価は、全てのオリジナルのプロンプトがブロックされている一方で、$PC^2$は攻撃成功率を最大86%まで達成していることを示している。
関連論文リスト
- MacPrompt: Maraconic-guided Jailbreak against Text-to-Image Models [21.21184947590066]
我々は、新しいブラックボックスとクロスランガル攻撃であるMacPromptを紹介し、これまで見過ごされていたT2Iの安全性メカニズムの脆弱性を明らかにする。
MacPromptは、有害な用語の言語間文字レベルの組換えを実行することで、逆のプロンプトを構築する。
性的関係のあるコンテンツでは92%、暴力では90%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-01-12T02:16:12Z) - Are LLMs Good Safety Agents or a Propaganda Engine? [74.88607730071483]
PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。
PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。
1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。
論文 参考訳(メタデータ) (2025-11-28T13:36:00Z) - Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z) - CogMorph: Cognitive Morphing Attacks for Text-to-Image Models [65.38747950692752]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルに固有の有意かつ未認識の倫理的リスクを明らかにする。
我々は,T2Iモデルを操作して,本来の中核領域を保持するが有害または有害な文脈要素を埋め込んだ画像を生成する,CogMorph(CogMorph)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T01:45:56Z) - Incivility and Rigidity: Evaluating the Risks of Fine-Tuning LLMs for Political Argumentation [12.686044001239708]
Twitter(現在のX)やRedditなどのプラットフォームでのインキュビティは、AIシステムの開発を複雑にしている。
コントラストのある2つの政治談話データセットを微調整したtextitGPT-3.5 による実験を行った。
論文 参考訳(メタデータ) (2024-11-25T15:28:11Z) - On the Use of Proxies in Political Ad Targeting [49.61009579554272]
我々は、主要な政治広告主がプロキシ属性をターゲットとして緩和を回避したことを示す。
本研究は政治広告の規制に関する議論に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-18T17:15:13Z) - Position: Towards Implicit Prompt For Text-To-Image Models [57.00716011456852]
本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
論文 参考訳(メタデータ) (2024-03-04T15:21:51Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Changes in Policy Preferences in German Tweets during the COVID Pandemic [4.663960015139793]
政治的嗜好の微妙なアノテーションを付加した新しいツイートデータセットを提示する。
このデータに基づいて訓練されたテキスト分類モデルを用いて、政治的意見を抽出する。
その結果、新型コロナウイルスのパンデミックを受けて、政治的意見の表現が増加したことが示唆された。
論文 参考訳(メタデータ) (2023-07-31T16:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。