論文の概要: Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety
- arxiv url: http://arxiv.org/abs/2505.04146v1
- Date: Wed, 07 May 2025 05:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.982756
- Title: Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety
- Title(参考訳): Canvasをアンマキングする: 画像生成のジェイルブレイクとLLMコンテンツ安全性のための動的ベンチマーク
- Authors: Variath Madhupal Gautham Nair, Vishal Varma Dantuluri,
- Abstract要約: 既存の大規模言語モデル(LLM)は急速に進歩しており、画像生成タスクにおいて優れた結果が得られている。
しかし、コンテンツの安全性チェックは、プロンプトベースのジェイルブレイクに弱いままだ。
画像生成におけるLLM脆弱性を評価するベンチマークデータセットである Unmasking the Canvas (UTC Benchmark) を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing large language models (LLMs) are advancing rapidly and produce outstanding results in image generation tasks, yet their content safety checks remain vulnerable to prompt-based jailbreaks. Through preliminary testing on platforms such as ChatGPT, MetaAI, and Grok, we observed that even short, natural prompts could lead to the generation of compromising images ranging from realistic depictions of forged documents to manipulated images of public figures. We introduce Unmasking the Canvas (UTC Benchmark; UTCB), a dynamic and scalable benchmark dataset to evaluate LLM vulnerability in image generation. Our methodology combines structured prompt engineering, multilingual obfuscation (e.g., Zulu, Gaelic, Base64), and evaluation using Groq-hosted LLaMA-3. The pipeline supports both zero-shot and fallback prompting strategies, risk scoring, and automated tagging. All generations are stored with rich metadata and curated into Bronze (non-verified), Silver (LLM-aided verification), and Gold (manually verified) tiers. UTCB is designed to evolve over time with new data sources, prompt templates, and model behaviors. Warning: This paper includes visual examples of adversarial inputs designed to test model safety. All outputs have been redacted to ensure responsible disclosure.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)は急速に進歩し、画像生成タスクにおいて優れた結果をもたらすが、コンテンツ安全性チェックはプロンプトベースのジェイルブレイクに対して脆弱である。
ChatGPTやMetaAI,Grokといったプラットフォーム上での予備的なテストを通じて,たとえ短い自然なプロンプトであっても,偽文書の現実的な描写から,公開人物の操作された画像に至るまで,妥協的な画像の生成につながる可能性が示唆された。
画像生成におけるLLM脆弱性を評価するために,動的でスケーラブルなベンチマークデータセットである Unmasking the Canvas (UTC Benchmark; UTCB) を紹介する。
提案手法は,構造化プロンプト工学,多言語難読化(Zulu,Gaelic,Base64),およびGroq-hosted LLaMA-3を用いた評価を組み合わせる。
パイプラインはゼロショットとフォールバックの両方をサポートし、戦略、リスクスコアリング、自動タグ付けを行う。
すべての世代は豊富なメタデータで格納され、Bronze(非検証)、Silver(LLM支援検証)、Gold(手動検証)ティアにキュレーションされる。
UTCBは、新しいデータソース、プロンプトテンプレート、モデル動作で時間とともに進化するように設計されている。
警告: モデル安全性をテストするために設計された敵入力の視覚的例を含む。
すべてのアウトプットは、責任のある開示を保証するために修正されている。
関連論文リスト
- Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images [5.150015329535525]
我々は、画像内に埋め込まれたNSFWテキストの生成という、新たな脅威を識別する。
これには侮辱、人種的暴行、性的暴行といった攻撃的な言葉が含まれる。
既存の緩和技術は、テキスト生成を著しく劣化させながら有害なテキスト生成を防ぐことができない。
この領域の研究を進めるために、画像中のNSFWテキスト生成を評価するためのオープンソースのベンチマークであるToxicBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-07T16:39:39Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。