論文の概要: ExtremeAIGC: Benchmarking LMM Vulnerability to AI-Generated Extremist Content
- arxiv url: http://arxiv.org/abs/2503.09964v1
- Date: Thu, 13 Mar 2025 02:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:02.465572
- Title: ExtremeAIGC: Benchmarking LMM Vulnerability to AI-Generated Extremist Content
- Title(参考訳): ExtremeAIGC:AI生成極端コンテンツに対するLMM脆弱性のベンチマーク
- Authors: Bhavik Chandna, Mariam Aboujenane, Usman Naseem,
- Abstract要約: 我々は,AI生成した極端コンテンツに対するモデル脆弱性を評価するために設計されたベンチマークデータセットと評価フレームワークExtremeAIGCを紹介する。
ExtremeAIGCは、最先端の画像生成技術を用いて、さまざまなテキストおよび画像ベースのサンプルをキュレートすることで、現実世界のイベントと悪意のあるユースケースをシミュレートする。
我々の研究は、LMMの深刻な弱点を明らかにし、最先端の安全対策でさえ過激派物質の発生を防げないことを示した。
- 参考スコア(独自算出の注目度): 3.6802208575951925
- License:
- Abstract: Large Multimodal Models (LMMs) are increasingly vulnerable to AI-generated extremist content, including photorealistic images and text, which can be used to bypass safety mechanisms and generate harmful outputs. However, existing datasets for evaluating LMM robustness offer limited exploration of extremist content, often lacking AI-generated images, diverse image generation models, and comprehensive coverage of historical events, which hinders a complete assessment of model vulnerabilities. To fill this gap, we introduce ExtremeAIGC, a benchmark dataset and evaluation framework designed to assess LMM vulnerabilities against such content. ExtremeAIGC simulates real-world events and malicious use cases by curating diverse text- and image-based examples crafted using state-of-the-art image generation techniques. Our study reveals alarming weaknesses in LMMs, demonstrating that even cutting-edge safety measures fail to prevent the generation of extremist material. We systematically quantify the success rates of various attack strategies, exposing critical gaps in current defenses and emphasizing the need for more robust mitigation strategies.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、安全機構をバイパスし有害な出力を生成するために使用できるフォトリアリスティック画像やテキストを含む、AI生成の過激なコンテンツに対して、ますます脆弱である。
しかし、LMMロバスト性を評価するための既存のデータセットは、しばしばAI生成画像の欠如、多様な画像生成モデル、そして過去の出来事の包括的カバレッジを欠いている極端に過激な内容の探索を可能にするため、モデル脆弱性の完全な評価を妨げている。
このギャップを埋めるために、このようなコンテンツに対するLMM脆弱性を評価するために設計されたベンチマークデータセットと評価フレームワークExtremeAIGCを紹介します。
ExtremeAIGCは、最先端の画像生成技術を用いて、さまざまなテキストおよび画像ベースのサンプルをキュレートすることで、現実世界のイベントと悪意のあるユースケースをシミュレートする。
我々の研究は、LMMの深刻な弱点を明らかにし、最先端の安全対策でさえ過激派物質の発生を防げないことを示した。
我々は、様々な攻撃戦略の成功率を体系的に定量化し、現在の防衛における重要なギャップを明らかにし、より堅牢な緩和戦略の必要性を強調する。
関連論文リスト
- MAA: Meticulous Adversarial Attack against Vision-Language Pre-trained Models [30.04163729936878]
Meticulous Adrial Attack (MAA) は、個々のサンプルのモデルに依存しない特性と脆弱性を完全に活用する。
MAAは、新しいリサイズ・スライディング作物(RScrop)技術を開発することにより、敵画像のきめ細かい最適化を強調している。
論文 参考訳(メタデータ) (2025-02-12T02:53:27Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - A Grey-box Attack against Latent Diffusion Model-based Image Editing by Posterior Collapse [7.390756739899558]
生成AI、特に潜在拡散モデル(LDM)の最近の進歩は、画像合成と操作に革命をもたらした。
VAEが訓練中に後部崩壊をきたすという観察に基づくPCA(Posterior Collapse Attack)を提案する。
本手法は,対象モデルのホワイトボックス情報への依存を最小限に抑え,モデル固有の知識への暗黙的な依存を取り除く。
論文 参考訳(メタデータ) (2024-08-20T14:43:53Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。