論文の概要: Rainbow Noise: Stress-Testing Multimodal Harmful-Meme Detectors on LGBTQ Content
- arxiv url: http://arxiv.org/abs/2507.19551v2
- Date: Mon, 04 Aug 2025 23:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.767498
- Title: Rainbow Noise: Stress-Testing Multimodal Harmful-Meme Detectors on LGBTQ Content
- Title(参考訳): レインボーノイズ:LGBTQコンテンツのマルチモーダルハーミフル・ミーム検出器のストレス試験
- Authors: Ran Tong, Songtao Wei, Jiaqi Liu, Lanruo Wang,
- Abstract要約: LGBTQ、+コミュニティを対象とする憎しみのあるミームは、キャプション、イメージ、またはその両方を微調整することで、検出を回避していることが多い。
この設定のための最初のベンチマークを構築し、現実的な4つのキャプション攻撃と3つの標準画像の破損を組み合わせ、PradeMMデータセット上ですべての組み合わせをテストする。
2つの最先端検出器であるMemeCLIPとMemeBLIP2がケーススタディとして機能し、後者のレジリエンスを高めるための軽量なtextbfText Denoising Adapter (TDA) を導入する。
- 参考スコア(独自算出の注目度): 10.298160307088159
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hateful memes aimed at LGBTQ\,+ communities often evade detection by tweaking either the caption, the image, or both. We build the first robustness benchmark for this setting, pairing four realistic caption attacks with three canonical image corruptions and testing all combinations on the PrideMM dataset. Two state-of-the-art detectors, MemeCLIP and MemeBLIP2, serve as case studies, and we introduce a lightweight \textbf{Text Denoising Adapter (TDA)} to enhance the latter's resilience. Across the grid, MemeCLIP degrades more gently, while MemeBLIP2 is particularly sensitive to the caption edits that disrupt its language processing. However, the addition of the TDA not only remedies this weakness but makes MemeBLIP2 the most robust model overall. Ablations reveal that all systems lean heavily on text, but architectural choices and pre-training data significantly impact robustness. Our benchmark exposes where current multimodal safety models crack and demonstrates that targeted, lightweight modules like the TDA offer a powerful path towards stronger defences.
- Abstract(参考訳): LGBTQ\,+コミュニティを対象とする憎しみ深いミームは、キャプションやイメージ、あるいはその両方を微調整することで、検出を回避していることが多い。
この設定のための最初のロバストネスベンチマークを構築し、現実的な4つのキャプション攻撃と3つの標準画像の破損を組み合わせ、PrideMMデータセット上ですべての組み合わせをテストする。
2つの最先端検出器であるMemeCLIPとMemeBLIP2がケーススタディとして機能し、後者のレジリエンスを高めるために軽量な \textbf{Text Denoising Adapter (TDA) を導入する。
グリッドの向こう側では、MemeCLIPはより緩やかに劣化し、MemeBLIP2はその言語処理を妨害するキャプション編集に特に敏感である。
しかし、TDAの追加は、この弱点を修復するだけでなく、MemeBLIP2を全体として最も堅牢なモデルにする。
アブレーションは、すべてのシステムがテキストに強く依存していることを示しているが、アーキテクチャの選択と事前学習データは、ロバスト性に大きな影響を及ぼす。
我々のベンチマークでは、現在のマルチモーダル安全モデルがひび割れ、TDAのような軽量モジュールがより強力な防御への強力な道を提供することを示す。
関連論文リスト
- GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning [26.546646866501735]
有害ミーム検出のための新しいフレームワークであるU-CoT+を紹介する。
まず,視覚的ミームを詳細なテキスト記述に変換する高忠実度ミーム・トゥ・テキストパイプラインを開発する。
この設計は、ミームの解釈をミーム分類から切り離し、複雑な生の視覚的内容に対する即時推論を避ける。
論文 参考訳(メタデータ) (2025-06-10T06:10:45Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - MemeBLIP2: A novel lightweight multimodal system to detect harmful memes [10.174106475035689]
画像とテキストの特徴を効果的に組み合わせることで有害なミームを検出する軽量マルチモーダルシステムであるMemeBLIP2を紹介する。
我々は、画像とテキストの表現を共有空間に整列させるモジュールを追加し、より良い分類のためにそれらを融合させることにより、以前の研究に基づいて構築した。
その結果,MemeBLIP2は,皮肉な内容や文化的な内容であっても,両モードとも微妙な手がかりを捉えることができることがわかった。
論文 参考訳(メタデータ) (2025-04-29T23:41:06Z) - CAMU: Context Augmentation for Meme Understanding [9.49890289676001]
ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
より説明的なキャプションを生成するために,大規模な視覚言語モデルを活用した新しいフレームワークCAMUを導入する。
提案手法は,Hateful Memesデータセット上での精度(0.807)とF1スコア(0.806)を,既存のSoTAフレームワークと同等に達成する。
論文 参考訳(メタデータ) (2025-04-24T19:27:55Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification [11.270267165348626]
LGBTQ+ Pride 運動に関連する5,063個のテキスト埋め込み画像からなる新しいデータセット PrideMM を提案する。
事前学習したCLIPモデルの知識を保ちながら、効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。
論文 参考訳(メタデータ) (2024-09-23T04:49:08Z) - Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks [0.0]
LVLM(Large Vision-Language Models)は、視覚言語タスクに優れたAIである。
ジェイルブレイクは安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を発生させる。
シームズアーキテクチャを利用してCLIPビジョンエンコーダを逆さまに微調整する新しい防御機構であるSim-CLIP+を提案する。
論文 参考訳(メタデータ) (2024-09-11T15:39:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Unified Physical-Digital Face Attack Detection [66.14645299430157]
顔認識(FR)システムは物理的(印刷写真)とデジタル(ディープフェイク)攻撃に悩まされることがある。
以前の関連する作業では、両方の状況が同時に考慮されることはめったにありません。
視覚言語モデル(VLM)に基づく一元攻撃検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-31T09:38:44Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。