論文の概要: Labels or Input? Rethinking Augmentation in Multimodal Hate Detection
- arxiv url: http://arxiv.org/abs/2508.11808v1
- Date: Fri, 15 Aug 2025 21:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.385514
- Title: Labels or Input? Rethinking Augmentation in Multimodal Hate Detection
- Title(参考訳): ラベルか入力か?マルチモーダルヘイト検出における拡張の再考
- Authors: Sahajpreet Singh, Rongxin Ouyang, Subhayan Mukerjee, Kokil Jaidka,
- Abstract要約: マルチモーダルヘイト検出を改善するために,マルチモーダルヘイト検出法を提案する。
まず、素早い構造、監督、訓練のモダリティを体系的に変化させるプロンプト最適化フレームワークを提案する。
次に,2,479個の正中性ミームを生成するマルチモーダルデータ拡張パイプラインを提案する。
- 参考スコア(独自算出の注目度): 9.166963162285064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The modern web is saturated with multimodal content, intensifying the challenge of detecting hateful memes, where harmful intent is often conveyed through subtle interactions between text and image under the guise of humor or satire. While recent advances in Vision-Language Models (VLMs) show promise, these models lack support for fine-grained supervision and remain susceptible to implicit hate speech. In this paper, we present a dual-pronged approach to improve multimodal hate detection. First, we propose a prompt optimization framework that systematically varies prompt structure, supervision granularity, and training modality. We show that prompt design and label scaling both influence performance, with structured prompts improving robustness even in small models, and InternVL2 achieving the best F1-scores across binary and scaled settings. Second, we introduce a multimodal data augmentation pipeline that generates 2,479 counterfactually neutral memes by isolating and rewriting the hateful modality. This pipeline, powered by a multi-agent LLM-VLM setup, successfully reduces spurious correlations and improves classifier generalization. Our approaches inspire new directions for building synthetic data to train robust and fair vision-language models. Our findings demonstrate that prompt structure and data composition are as critical as model size, and that targeted augmentation can support more trustworthy and context-sensitive hate detection.
- Abstract(参考訳): 現代のウェブはマルチモーダルなコンテンツで飽和しており、ユーモアや風刺のガイドの下でテキストと画像の微妙な相互作用を通じて有害な意図が伝えられる憎しみのあるミームを検出するという課題が強まる。
VLM(Vision-Language Models)の最近の進歩は、将来性を示しているが、これらのモデルはきめ細かい監督をサポートしておらず、暗黙のヘイトスピーチに影響を受けやすい。
本稿では,マルチモーダルヘイト検出を改善するために,マルチモーダルヘイト検出法を提案する。
まず、素早い構造を体系的に変化させ、粒度を監督し、モダリティを訓練するプロンプト最適化フレームワークを提案する。
InternVL2はバイナリとスケールした設定で最高のF1スコアを達成でき、構造的プロンプトは小さなモデルでもロバスト性を向上させる。
第2に、ヘイトフルなモダリティを分離して書き換えることで、2,479個の反現実的に中立なミームを生成するマルチモーダルデータ拡張パイプラインを導入する。
このパイプラインはマルチエージェントのLLM-VLMセットアップを利用しており、スプリアス相関を低減し、分類器の一般化を改善する。
我々のアプローチは、堅牢で公正な視覚言語モデルをトレーニングするために、合成データを構築するための新しい方向を刺激する。
以上の結果から,迅速な構造とデータ構成はモデルサイズと同じくらい重要であり,対象の増強はより信頼性が高く,文脈に敏感なヘイト検出を支援することが示唆された。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - CAMU: Context Augmentation for Meme Understanding [9.49890289676001]
ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
より説明的なキャプションを生成するために,大規模な視覚言語モデルを活用した新しいフレームワークCAMUを導入する。
提案手法は,Hateful Memesデータセット上での精度(0.807)とF1スコア(0.806)を,既存のSoTAフレームワークと同等に達成する。
論文 参考訳(メタデータ) (2025-04-24T19:27:55Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for
Multimodal Hate [2.68137173219451]
本稿では,暗黙的かつ明示的な憎悪を検出するための意味的・マルチモーダル的文脈の役割を評価する。
テキストと視覚の豊かさがモデル性能を向上させることを示す。
すべてのモデルが完全なアノテータ契約でコンテンツ上でより優れた性能を発揮しており、マルチモーダルモデルはアノテータが同意しないコンテントの分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-06-10T16:29:42Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。