論文の概要: Detecting Hate Speech in Multi-modal Memes
- arxiv url: http://arxiv.org/abs/2012.14891v1
- Date: Tue, 29 Dec 2020 18:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 23:47:21.298167
- Title: Detecting Hate Speech in Multi-modal Memes
- Title(参考訳): マルチモーダルミームにおけるヘイトスピーチの検出
- Authors: Abhishek Das, Japsimar Singh Wahi, Siyao Li
- Abstract要約: 我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
- 参考スコア(独自算出の注目度): 14.036769355498546
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the past few years, there has been a surge of interest in multi-modal
problems, from image captioning to visual question answering and beyond. In
this paper, we focus on hate speech detection in multi-modal memes wherein
memes pose an interesting multi-modal fusion problem. We aim to solve the
Facebook Meme Challenge \cite{kiela2020hateful} which aims to solve a binary
classification problem of predicting whether a meme is hateful or not. A
crucial characteristic of the challenge is that it includes "benign
confounders" to counter the possibility of models exploiting unimodal priors.
The challenge states that the state-of-the-art models perform poorly compared
to humans. During the analysis of the dataset, we realized that majority of the
data points which are originally hateful are turned into benign just be
describing the image of the meme. Also, majority of the multi-modal baselines
give more preference to the hate speech (language modality). To tackle these
problems, we explore the visual modality using object detection and image
captioning models to fetch the "actual caption" and then combine it with the
multi-modal representation to perform binary classification. This approach
tackles the benign text confounders present in the dataset to improve the
performance. Another approach we experiment with is to improve the prediction
with sentiment analysis. Instead of only using multi-modal representations
obtained from pre-trained neural networks, we also include the unimodal
sentiment to enrich the features. We perform a detailed analysis of the above
two approaches, providing compelling reasons in favor of the methodologies
used.
- Abstract(参考訳): 過去数年間、画像キャプションから視覚的な質問への回答に至るまで、マルチモーダル問題への関心が高まっている。
本稿では,ミームが興味深いマルチモーダル融合問題を引き起こすマルチモーダルミームにおけるヘイトスピーチ検出に着目した。
Facebook Meme Challenge \cite{kiela2020hateful}は、ミームが憎悪であるか否かを予測する二項分類問題の解決を目的としている。
この課題の重要な特徴は、ユニモーダル優先権を利用するモデルの可能性に対抗するために「良質な共同設立者」を含むことである。
課題は、最先端のモデルは人間に比べて性能が悪いことだ。
データセットの分析では、もともと嫌悪感のあるデータポイントの大部分は、ミームのイメージを記述するだけで良心的になることがわかった。
また、マルチモーダルベースラインの大多数は、ヘイトスピーチ(言語モダリティ)をより好んでいる。
これらの問題に対処するために,オブジェクト検出と画像キャプションモデルを用いて「実際のキャプション」を取得し,それをマルチモーダル表現と組み合わせ,バイナリ分類を行う。
このアプローチは、パフォーマンスを改善するためにデータセットに存在する良質なテキスト共同創設者に取り組む。
もうひとつの試みは、感情分析による予測を改善することです。
事前学習されたニューラルネットワークから得られるマルチモーダル表現を使用する代わりに、機能を強化するためのユニモーダル感情も含む。
上記の2つのアプローチを詳細に分析し、使用方法に好意的な理由を提示する。
関連論文リスト
- Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - MemeFier: Dual-stage Modality Fusion for Image Meme Classification [8.794414326545697]
画像ミームのような新しいデジタルコンテンツは、マルチモーダル手段を用いてヘイトを広めるきっかけとなった。
インターネット画像ミームのきめ細かい分類のためのディープラーニングアーキテクチャであるMemeFierを提案する。
論文 参考訳(メタデータ) (2023-04-06T07:36:52Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for
Multimodal Hate [2.68137173219451]
本稿では,暗黙的かつ明示的な憎悪を検出するための意味的・マルチモーダル的文脈の役割を評価する。
テキストと視覚の豊かさがモデル性能を向上させることを示す。
すべてのモデルが完全なアノテータ契約でコンテンツ上でより優れた性能を発揮しており、マルチモーダルモデルはアノテータが同意しないコンテントの分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-06-10T16:29:42Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z) - The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes [43.778346545763654]
本研究は,マルチモーダルなミームにおけるヘイトスピーチの検出に着目した,マルチモーダルな分類のための新しい課題セットを提案する。
ユニモーダルモデルが苦戦し、マルチモーダルモデルのみが成功するように構築されている。
最先端の手法は人間に比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-05-10T21:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。