論文の概要: HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes
- arxiv url: http://arxiv.org/abs/2408.05794v2
- Date: Wed, 30 Apr 2025 03:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 02:39:51.087573
- Title: HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes
- Title(参考訳): HateSieve:マルチモーダルミームにおけるHatefulコンテンツの検出とセグメンテーションのためのコントラスト学習フレームワーク
- Authors: Xuanyu Su, Yansong Li, Diana Inkpen, Nathalie Japkowicz,
- Abstract要約: textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
- 参考スコア(独自算出の注目度): 8.97062933976566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amidst the rise of Large Multimodal Models (LMMs) and their widespread application in generating and interpreting complex content, the risk of propagating biased and harmful memes remains significant. Current safety measures often fail to detect subtly integrated hateful content within ``Confounder Memes''. To address this, we introduce \textsc{HateSieve}, a new framework designed to enhance the detection and segmentation of hateful elements in memes. \textsc{HateSieve} features a novel Contrastive Meme Generator that creates semantically paired memes, a customized triplet dataset for contrastive learning, and an Image-Text Alignment module that produces context-aware embeddings for accurate meme segmentation. Empirical experiments on the Hateful Meme Dataset show that \textsc{HateSieve} not only surpasses existing LMMs in performance with fewer trainable parameters but also offers a robust mechanism for precisely identifying and isolating hateful content. \textcolor{red}{Caution: Contains academic discussions of hate speech; viewer discretion advised.}
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の台頭と、それらが複雑なコンテンツの生成と解釈に広く応用されている中、偏見や有害なミームの伝播のリスクは依然として大きい。
現在の安全対策は、‘共同創業者ミーム’内で微妙に統合されたヘイトフルなコンテンツを検出するのに失敗することが多い。
これを解決するために、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計された新しいフレームワークである \textsc{HateSieve} を紹介する。
\textsc{HateSieve}は、意味的にペア化されたミームを生成する新しいContrastive Meme Generator、コントラスト学習用にカスタマイズされたトリプルデータセット、正確なミームセグメンテーションのためにコンテキスト認識の埋め込みを生成するImage-Text Alignmentモジュールを備えている。
Hateful Meme Datasetの実証実験によると、‘textsc{HateSieve} はトレーニング可能なパラメータを少なくして既存の LMM を上回るだけでなく、ヘイトフルコンテンツを正確に識別し分離するための堅牢なメカニズムも提供する。
\textcolor{red}{Caution: ヘイトスピーチの学術的な議論を含む。
※
関連論文リスト
- Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models [12.929357709840975]
マルチモーダルミームは、個人やグループに対してヘイトスピーチを広めるために悪用されることがある。
ヘイトフルなミームを検出するための定義誘導プロンプト手法と、UnHateMemeという名前のミームにおけるヘイトフルなコンテンツを緩和するための統一的なフレームワークを提案する。
我々のフレームワークはビジョン・ランゲージ・モデルと統合されており、ヘイトフル・ミームを非ヘイトフル・フォームに変換する強力な能力を示している。
論文 参考訳(メタデータ) (2025-04-30T19:48:12Z) - MemeBLIP2: A novel lightweight multimodal system to detect harmful memes [10.174106475035689]
画像とテキストの特徴を効果的に組み合わせることで有害なミームを検出する軽量マルチモーダルシステムであるMemeBLIP2を紹介する。
我々は、画像とテキストの表現を共有空間に整列させるモジュールを追加し、より良い分類のためにそれらを融合させることにより、以前の研究に基づいて構築した。
その結果,MemeBLIP2は,皮肉な内容や文化的な内容であっても,両モードとも微妙な手がかりを捉えることができることがわかった。
論文 参考訳(メタデータ) (2025-04-29T23:41:06Z) - Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering [0.5587293092389789]
有害なミームは、特に微妙な参照やコード化された参照を使用する場合、伝統的なテキストのみまたは画像のみの検出システムを避けることが多い。
我々は,OCRを統合して埋め込みテキストを抽出するマルチモーダルヘイト検出フレームワークを提案し,視覚的コンテンツを中立に記述するためのキャプション,粒度分類のためのサブラベル分類,文脈関連検索のためのRAG,記号的および文脈的手がかりの反復的分析のためのVQAを提案する。
Facebook Hateful Memesデータセットの実験結果から,提案するフレームワークは,精度とAUC-ROCの両面で,単調モデルと従来型のマルチモーダルモデルの性能を上回ることがわかった。
論文 参考訳(メタデータ) (2025-04-23T13:52:14Z) - Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions [4.649093665157263]
本稿では,LMM(Large Multimodal Models)を利用した新しいフレームワークであるIntMemeを紹介する。
IntMemeは、ミームのモデレーションにおける正確性と説明可能性の両方を改善するという2つの課題に対処する。
提案手法はPT-VLMにおける不透明度と誤分類の問題に対処し,LMMを用いた憎しみのあるミーム検出を最適化する。
論文 参考訳(メタデータ) (2025-02-16T10:45:40Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - MemeGuard: An LLM and VLM-based Framework for Advancing Content Moderation via Meme Intervention [43.849634264271565]
textitMemeGuardは,大規模言語モデル(LLM)とビジュアル言語モデル(VLM)を活用した包括的なフレームワークである。
textitMemeGuardは、特別に微調整されたVLM、textitVLMeme、ミーム解釈、マルチモーダルな知識選択とランキング機構を利用する。
我々はtextitICMM を利用して textitMemeGuard をテストする。
論文 参考訳(メタデータ) (2024-06-08T04:09:20Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - Text or Image? What is More Important in Cross-Domain Generalization
Capabilities of Hate Meme Detection Models? [2.4899077941924967]
本稿では,マルチモーダルヘイトミーム検出におけるクロスドメイン一般化の難題について述べる。
ヘイトフルミームのテキスト成分のみによって、既存のマルチモーダル分類器が異なる領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。
新たに作成された共同創設者データセットに対する我々の評価は、画像共同創設者の0.18ドルの平均$Delta$F1と比較すると、テキスト共同創設者のより高いパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-07T15:44:55Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - MemeFier: Dual-stage Modality Fusion for Image Meme Classification [8.794414326545697]
画像ミームのような新しいデジタルコンテンツは、マルチモーダル手段を用いてヘイトを広めるきっかけとなった。
インターネット画像ミームのきめ細かい分類のためのディープラーニングアーキテクチャであるMemeFierを提案する。
論文 参考訳(メタデータ) (2023-04-06T07:36:52Z) - SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes
Analysis [0.0]
SemiMemesは、自動エンコーダと分類タスクを組み合わせて、リソース豊富な未ラベルデータを利用する新しいトレーニング手法である。
本研究は、他のマルチモーダル・セミ教師あり学習モデルよりも優れた、マルチモーダル・セミ教師あり学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-31T11:22:03Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。