論文の概要: TRACE: Textual Relevance Augmentation and Contextual Encoding for Multimodal Hate Detection
- arxiv url: http://arxiv.org/abs/2504.17902v2
- Date: Fri, 07 Nov 2025 18:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 14:53:49.416642
- Title: TRACE: Textual Relevance Augmentation and Contextual Encoding for Multimodal Hate Detection
- Title(参考訳): TRACE:マルチモーダルヘイト検出のためのテキスト関連強化とコンテキストエンコーディング
- Authors: Girish A. Koushik, Helen Treharne, Aditya Joshi, Diptesh Kanojia,
- Abstract要約: ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
これらの課題に対処するために,視覚的に基盤付けられたコンテキスト拡張を活用する階層型マルチモーダルフレームワークであるTRACEを導入する。
我々のフレームワークは、広く使われているHateful Memesデータセット上で、最先端の精度(0.807)とF1スコア(0.806)を達成する。
- 参考スコア(独自算出の注目度): 15.240092636523277
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media memes are a challenging domain for hate detection because they intertwine visual and textual cues into culturally nuanced messages. To tackle these challenges, we introduce TRACE, a hierarchical multimodal framework that leverages visually grounded context augmentation, along with a novel caption-scoring network to emphasize hate-relevant content, and parameter-efficient fine-tuning of CLIP's text encoder. Our experiments demonstrate that selectively fine-tuning deeper text encoder layers significantly enhances performance compared to simpler projection-layer fine-tuning methods. Specifically, our framework achieves state-of-the-art accuracy (0.807) and F1-score (0.806) on the widely-used Hateful Memes dataset, matching the performance of considerably larger models while maintaining efficiency. Moreover, it achieves superior generalization on the MultiOFF offensive meme dataset (F1-score 0.673), highlighting robustness across meme categories. Additional analyses confirm that robust visual grounding and nuanced text representations significantly reduce errors caused by benign confounders. We publicly release our code to facilitate future research.
- Abstract(参考訳): ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
これらの課題に対処するために、TRACEは、視覚的に基盤付けられたコンテキスト拡張を活用する階層的マルチモーダルフレームワークであり、ヘイト関連コンテンツを強調する新しいキャプションスコーリングネットワーク、CLIPのテキストエンコーダのパラメータ効率の良い微調整も導入する。
実験により、より深いテキストエンコーダ層を選択的に微調整することで、単純なプロジェクション層微細調整法と比較して性能が著しく向上することが示された。
具体的には、広く使われているHateful Memesデータセット上で、最先端の精度(0.807)とF1スコア(0.806)を実現し、効率を保ちながら、かなり大きなモデルの性能をマッチングする。
さらに、MultiOFF攻撃ミームデータセット(F1スコア0.673)の優れた一般化を実現し、ミームカテゴリ間の堅牢性を強調している。
さらなる分析により、堅牢な視覚的接地とニュアンス付きテキスト表現が良心的な共同設立者によるエラーを著しく減少させることを確認した。
将来の研究を促進するために、コードを公開しています。
関連論文リスト
- Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning [26.546646866501735]
有害ミーム検出のための新しいフレームワークであるU-CoT+を紹介する。
まず,視覚的ミームを詳細なテキスト記述に変換する高忠実度ミーム・トゥ・テキストパイプラインを開発する。
この設計は、ミームの解釈をミーム分類から切り離し、複雑な生の視覚的内容に対する即時推論を避ける。
論文 参考訳(メタデータ) (2025-06-10T06:10:45Z) - Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering [0.5587293092389789]
有害なミームは、特に微妙な参照やコード化された参照を使用する場合、伝統的なテキストのみまたは画像のみの検出システムを避けることが多い。
我々は,OCRを統合して埋め込みテキストを抽出するマルチモーダルヘイト検出フレームワークを提案し,視覚的コンテンツを中立に記述するためのキャプション,粒度分類のためのサブラベル分類,文脈関連検索のためのRAG,記号的および文脈的手がかりの反復的分析のためのVQAを提案する。
Facebook Hateful Memesデータセットの実験結果から,提案するフレームワークは,精度とAUC-ROCの両面で,単調モデルと従来型のマルチモーダルモデルの性能を上回ることがわかった。
論文 参考訳(メタデータ) (2025-04-23T13:52:14Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes [8.42736066868944]
本稿では,LVLM(Large Visual Language Models)の知識蒸留(KD)と知識注入を統合し,有害度検出性能を向上させる新しいフレームワークを提案する。
提案手法は,コンパクトなVLMフレームワーク内で注入可能な大規模コモンセンス知識グラフ(KG)であるConceptNetから,サブ知識グラフを抽出する。
2つのヘイトスピーチベンチマークデータセットによる実験結果から,最先端のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-19T02:39:28Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification [11.270267165348626]
LGBTQ+ Pride 運動に関連する5,063個のテキスト埋め込み画像からなる新しいデータセット PrideMM を提案する。
事前学習したCLIPモデルの知識を保ちながら、効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。
論文 参考訳(メタデータ) (2024-09-23T04:49:08Z) - HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Text or Image? What is More Important in Cross-Domain Generalization
Capabilities of Hate Meme Detection Models? [2.4899077941924967]
本稿では,マルチモーダルヘイトミーム検出におけるクロスドメイン一般化の難題について述べる。
ヘイトフルミームのテキスト成分のみによって、既存のマルチモーダル分類器が異なる領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。
新たに作成された共同創設者データセットに対する我々の評価は、画像共同創設者の0.18ドルの平均$Delta$F1と比較すると、テキスト共同創設者のより高いパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-07T15:44:55Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。