論文の概要: Text or Image? What is More Important in Cross-Domain Generalization
Capabilities of Hate Meme Detection Models?
- arxiv url: http://arxiv.org/abs/2402.04967v1
- Date: Wed, 7 Feb 2024 15:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:37:31.410610
- Title: Text or Image? What is More Important in Cross-Domain Generalization
Capabilities of Hate Meme Detection Models?
- Title(参考訳): テキストか画像か?
ヘイトミーム検出モデルのクロスドメイン一般化機能でもっと重要なのは何か?
- Authors: Piush Aggarwal, Jawar Mehrabanian, Weigang Huang, \"Ozge Alacam and
Torsten Zesch
- Abstract要約: 本稿では,マルチモーダルヘイトミーム検出におけるクロスドメイン一般化の難題について述べる。
ヘイトフルミームのテキスト成分のみによって、既存のマルチモーダル分類器が異なる領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。
新たに作成された共同創設者データセットに対する我々の評価は、画像共同創設者の0.18ドルの平均$Delta$F1と比較すると、テキスト共同創設者のより高いパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 2.4899077941924967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into the formidable challenge of cross-domain
generalization in multimodal hate meme detection, presenting compelling
findings. We provide enough pieces of evidence supporting the hypothesis that
only the textual component of hateful memes enables the existing multimodal
classifier to generalize across different domains, while the image component
proves highly sensitive to a specific training dataset. The evidence includes
demonstrations showing that hate-text classifiers perform similarly to
hate-meme classifiers in a zero-shot setting. Simultaneously, the introduction
of captions generated from images of memes to the hate-meme classifier worsens
performance by an average F1 of 0.02. Through blackbox explanations, we
identify a substantial contribution of the text modality (average of 83%),
which diminishes with the introduction of meme's image captions (52%).
Additionally, our evaluation on a newly created confounder dataset reveals
higher performance on text confounders as compared to image confounders with an
average $\Delta$F1 of 0.18.
- Abstract(参考訳): 本稿では,マルチモーダル・ヘイト・ミーム検出におけるクロスドメイン一般化の難題について述べる。
画像成分が特定のトレーニングデータセットに非常に敏感であることを証明しながら、ヘイトフルミームのテキストコンポーネントのみが既存のマルチモーダル分類器を様々な領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。
このエビデンスには、ヘイトテキスト分類器がゼロショット設定でヘイトミー分類器と同様に機能することを示すデモンストレーションが含まれている。
同時に、ミームの画像から生成されるキャプションをヘイト・ミーム分類器に導入することで、平均F1の0.02の性能が悪化する。
ブラックボックスの説明によって、テキストモダリティ(平均83%)の実質的な貢献が特定され、memeのイメージキャプション(52%)の導入によって減少する。
さらに、新たに作成された共同創設者データセットに対する評価では、画像共同創設者の0.18ドルの平均$\Delta$F1よりも高いパフォーマンスを示している。
関連論文リスト
- HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - MemeFier: Dual-stage Modality Fusion for Image Meme Classification [8.794414326545697]
画像ミームのような新しいデジタルコンテンツは、マルチモーダル手段を用いてヘイトを広めるきっかけとなった。
インターネット画像ミームのきめ細かい分類のためのディープラーニングアーキテクチャであるMemeFierを提案する。
論文 参考訳(メタデータ) (2023-04-06T07:36:52Z) - Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context
Images via Online Resources [70.68526820807402]
実際のイメージは、コンテキストや要素を誤って表現することによって、他の物語をサポートするために再目的化される。
私たちのゴールは、画像とコンテキストのペアリングを事実チェックすることで、この時間を要する、推論集約的なプロセスを自動化する検査可能な方法です。
私たちの研究は、オープンドメイン、コンテンツベース、マルチモーダルなファクトチェックのための最初のステップとベンチマークを提供します。
論文 参考訳(メタデータ) (2021-11-30T19:36:20Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for
Multimodal Hate [2.68137173219451]
本稿では,暗黙的かつ明示的な憎悪を検出するための意味的・マルチモーダル的文脈の役割を評価する。
テキストと視覚の豊かさがモデル性能を向上させることを示す。
すべてのモデルが完全なアノテータ契約でコンテンツ上でより優れた性能を発揮しており、マルチモーダルモデルはアノテータが同意しないコンテントの分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-06-10T16:29:42Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。