論文の概要: Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering
- arxiv url: http://arxiv.org/abs/2504.16723v1
- Date: Wed, 23 Apr 2025 13:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:11:44.78402
- Title: Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering
- Title(参考訳): キャプションと視覚的質問応答によるミーム中の有害コンテンツの検出と理解
- Authors: Ali Anaissi, Junaid Akram, Kunal Chaturvedi, Ali Braytee,
- Abstract要約: 有害なミームは、特に微妙な参照やコード化された参照を使用する場合、伝統的なテキストのみまたは画像のみの検出システムを避けることが多い。
我々は,OCRを統合して埋め込みテキストを抽出するマルチモーダルヘイト検出フレームワークを提案し,視覚的コンテンツを中立に記述するためのキャプション,粒度分類のためのサブラベル分類,文脈関連検索のためのRAG,記号的および文脈的手がかりの反復的分析のためのVQAを提案する。
Facebook Hateful Memesデータセットの実験結果から,提案するフレームワークは,精度とAUC-ROCの両面で,単調モデルと従来型のマルチモーダルモデルの性能を上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.5587293092389789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memes are widely used for humor and cultural commentary, but they are increasingly exploited to spread hateful content. Due to their multimodal nature, hateful memes often evade traditional text-only or image-only detection systems, particularly when they employ subtle or coded references. To address these challenges, we propose a multimodal hate detection framework that integrates key components: OCR to extract embedded text, captioning to describe visual content neutrally, sub-label classification for granular categorization of hateful content, RAG for contextually relevant retrieval, and VQA for iterative analysis of symbolic and contextual cues. This enables the framework to uncover latent signals that simpler pipelines fail to detect. Experimental results on the Facebook Hateful Memes dataset reveal that the proposed framework exceeds the performance of unimodal and conventional multimodal models in both accuracy and AUC-ROC.
- Abstract(参考訳): ミームはユーモアや文化的な解説に広く使われているが、憎しみのあるコンテンツを広めるために悪用されている。
そのマルチモーダル性のため、憎しみに満ちたミームは、特に微妙な参照やコード化された参照を使用する場合、伝統的なテキストオンリーまたは画像オンリーの検出システムを避けることが多い。
これらの課題に対処するため,OCRは埋め込みテキストを抽出し,キャプションは視覚的コンテンツを中立に記述し,サブラベル分類はヘイトフルコンテンツの粒度分類,RAGは文脈関連検索,VQAは記号的および文脈的手がかりの反復的分析を行う。
これにより、単純なパイプラインが検出できない遅延信号を発見することができる。
Facebook Hateful Memesデータセットの実験結果から,提案するフレームワークは,精度とAUC-ROCの両面で,単調モデルと従来型のマルチモーダルモデルの性能を上回ることがわかった。
関連論文リスト
- CAMU: Context Augmentation for Meme Understanding [9.49890289676001]
ソーシャルメディアのミームは、文化的にニュアンスのあるメッセージに視覚的およびテキスト的手がかりを織り込むため、ヘイト検出の難しい領域である。
より説明的なキャプションを生成するために,大規模な視覚言語モデルを活用した新しいフレームワークCAMUを導入する。
提案手法は,Hateful Memesデータセット上での精度(0.807)とF1スコア(0.806)を,既存のSoTAフレームワークと同等に達成する。
論文 参考訳(メタデータ) (2025-04-24T19:27:55Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。
近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。
本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文 参考訳(メタデータ) (2025-02-11T00:07:40Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection [4.997673761305336]
本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。
Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-15T06:34:15Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Hateful Memes Detection via Complementary Visual and Linguistic Networks [4.229588654547344]
Hateful Memes Challenge 2020において、補完的な視覚的および言語的ネットワークに基づくソリューションを調査します。
文脈レベルおよび敏感なオブジェクトレベルの情報は、視覚的および言語的埋め込みにおいて考慮される。
その結果,CVLは良好な性能を示し,AUROCと精度の基準で78:48%,72:95%が得られた。
論文 参考訳(メタデータ) (2020-12-09T11:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。