論文の概要: CAMU: Context Augmentation for Meme Understanding
- arxiv url: http://arxiv.org/abs/2504.17902v1
- Date: Thu, 24 Apr 2025 19:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.561941
- Title: CAMU: Context Augmentation for Meme Understanding
- Title(参考訳): CAMU: ミーム理解のためのコンテキスト拡張
- Authors: Girish A. Koushik, Diptesh Kanojia, Helen Treharne, Aditya Joshi,
- Abstract要約: ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
より説明的なキャプションを生成するために,大規模な視覚言語モデルを活用した新しいフレームワークCAMUを導入する。
提案手法は,Hateful Memesデータセット上での精度(0.807)とF1スコア(0.806)を,既存のSoTAフレームワークと同等に達成する。
- 参考スコア(独自算出の注目度): 9.49890289676001
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media memes are a challenging domain for hate detection because they intertwine visual and textual cues into culturally nuanced messages. We introduce a novel framework, CAMU, which leverages large vision-language models to generate more descriptive captions, a caption-scoring neural network to emphasise hate-relevant content, and parameter-efficient fine-tuning of CLIP's text encoder for an improved multimodal understanding of memes. Experiments on publicly available hateful meme datasets show that simple projection layer fine-tuning yields modest gains, whereas selectively tuning deeper text encoder layers significantly boosts performance on all evaluation metrics. Moreover, our approach attains high accuracy (0.807) and F1-score (0.806) on the Hateful Memes dataset, at par with the existing SoTA framework while being much more efficient, offering practical advantages in real-world scenarios that rely on fixed decision thresholds. CAMU also achieves the best F1-score of 0.673 on the MultiOFF dataset for offensive meme identification, demonstrating its generalisability. Additional analyses on benign confounders reveal that robust visual grounding and nuanced text representations are crucial for reliable hate and offence detection. We will publicly release CAMU along with the resultant models for further research. Disclaimer: This paper includes references to potentially disturbing, hateful, or offensive content due to the nature of the task.
- Abstract(参考訳): ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
本稿では、より説明的なキャプションを生成するために大きな視覚言語モデルを活用する新しいフレームワークCAMU、ヘイト関連コンテンツを強調するキャプションスコーリングニューラルネットワーク、および、ミームのマルチモーダル理解を改善するためにCLIPのテキストエンコーダをパラメータ効率よく微調整する。
公開可能なヘイトフルミームデータセットの実験では、単純なプロジェクション層を微調整すると適度な利得が得られるのに対し、より深いテキストエンコーダ層を選択的に調整することで、すべての評価指標のパフォーマンスが大幅に向上する。
さらに,Hateful MemesデータセットにおけるF1スコア(0.807)とF1スコア(0.806)の精度は,既存のSoTAフレームワークと同等でありながら,より効率的であり,固定決定しきい値に依存する実世界のシナリオにおいて現実的な優位性を提供する。
CAMUはまた、攻撃的なミーム識別のためのMultiOFFデータセットで0.673のF1スコアを達成し、その一般化性を示している。
良心的な共同設立者に関するさらなる分析によると、信頼できる憎悪と犯罪検出には、堅牢な視覚的根拠とニュアンスのあるテキスト表現が不可欠である。
今後の研究のために、CAMUと結果のモデルを公開します。
Disclaimer: タスクの性質から、潜在的に乱暴、憎悪、あるいは不快なコンテンツへの言及を含む。
関連論文リスト
- Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering [0.5587293092389789]
有害なミームは、特に微妙な参照やコード化された参照を使用する場合、伝統的なテキストのみまたは画像のみの検出システムを避けることが多い。
我々は,OCRを統合して埋め込みテキストを抽出するマルチモーダルヘイト検出フレームワークを提案し,視覚的コンテンツを中立に記述するためのキャプション,粒度分類のためのサブラベル分類,文脈関連検索のためのRAG,記号的および文脈的手がかりの反復的分析のためのVQAを提案する。
Facebook Hateful Memesデータセットの実験結果から,提案するフレームワークは,精度とAUC-ROCの両面で,単調モデルと従来型のマルチモーダルモデルの性能を上回ることがわかった。
論文 参考訳(メタデータ) (2025-04-23T13:52:14Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes [8.42736066868944]
本稿では,LVLM(Large Visual Language Models)の知識蒸留(KD)と知識注入を統合し,有害度検出性能を向上させる新しいフレームワークを提案する。
提案手法は,コンパクトなVLMフレームワーク内で注入可能な大規模コモンセンス知識グラフ(KG)であるConceptNetから,サブ知識グラフを抽出する。
2つのヘイトスピーチベンチマークデータセットによる実験結果から,最先端のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-19T02:39:28Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification [11.270267165348626]
LGBTQ+ Pride 運動に関連する5,063個のテキスト埋め込み画像からなる新しいデータセット PrideMM を提案する。
事前学習したCLIPモデルの知識を保ちながら、効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。
論文 参考訳(メタデータ) (2024-09-23T04:49:08Z) - HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Text or Image? What is More Important in Cross-Domain Generalization
Capabilities of Hate Meme Detection Models? [2.4899077941924967]
本稿では,マルチモーダルヘイトミーム検出におけるクロスドメイン一般化の難題について述べる。
ヘイトフルミームのテキスト成分のみによって、既存のマルチモーダル分類器が異なる領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。
新たに作成された共同創設者データセットに対する我々の評価は、画像共同創設者の0.18ドルの平均$Delta$F1と比較すると、テキスト共同創設者のより高いパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-07T15:44:55Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。