論文の概要: Understanding and Detecting Hateful Content using Contrastive Learning
- arxiv url: http://arxiv.org/abs/2201.08387v2
- Date: Tue, 17 May 2022 01:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 06:17:27.410289
- Title: Understanding and Detecting Hateful Content using Contrastive Learning
- Title(参考訳): コントラスト学習による有害コンテンツ理解と検出
- Authors: Felipe Gonz\'alez-Pizarro, Savvas Zannettou
- Abstract要約: この研究は、ウェブ上のヘイトフルコンテンツを検出し、理解するための研究に貢献する。
我々は、反ユダヤ主義的・イスラム主義的な憎悪的な文章句の集合を識別する方法論を考案した。
次に、OpenAIのCLIPを使用して、アンチセミティック/Islamophicのテキストフレーズと非常によく似た画像を識別する。
- 参考スコア(独自算出の注目度): 0.9391375268580806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spread of hate speech and hateful imagery on the Web is a significant
problem that needs to be mitigated to improve our Web experience. This work
contributes to research efforts to detect and understand hateful content on the
Web by undertaking a multimodal analysis of Antisemitism and Islamophobia on
4chan's /pol/ using OpenAI's CLIP. This large pre-trained model uses the
Contrastive Learning paradigm. We devise a methodology to identify a set of
Antisemitic and Islamophobic hateful textual phrases using Google's Perspective
API and manual annotations. Then, we use OpenAI's CLIP to identify images that
are highly similar to our Antisemitic/Islamophobic textual phrases. By running
our methodology on a dataset that includes 66M posts and 5.8M images shared on
4chan's /pol/ for 18 months, we detect 173K posts containing 21K
Antisemitic/Islamophobic images and 246K posts that include 420 hateful
phrases. Among other things, we find that we can use OpenAI's CLIP model to
detect hateful content with an accuracy score of 0.81 (F1 score = 0.54). By
comparing CLIP with two baselines proposed by the literature, we find that CLIP
outperforms them, in terms of accuracy, precision, and F1 score, in detecting
Antisemitic/Islamophobic images. Also, we find that Antisemitic/Islamophobic
imagery is shared in a similar number of posts on 4chan's /pol/ compared to
Antisemitic/Islamophobic textual phrases, highlighting the need to design more
tools for detecting hateful imagery. Finally, we make available (upon request)
a dataset of 246K posts containing 420 Antisemitic/Islamophobic phrases and 21K
likely Antisemitic/Islamophobic images (automatically detected by CLIP) that
can assist researchers in further understanding Antisemitism and Islamophobia.
- Abstract(参考訳): Web上でのヘイトスピーチとヘイトフルなイメージの普及は、Webエクスペリエンスを改善するために緩和する必要がある重要な問題である。
この研究は、OpenAIのCLIPを用いて4chanの/pol/におけるアンチセミズムとイスラム恐怖のマルチモーダル分析を行い、Web上の憎悪のあるコンテンツを検出し、理解する研究に貢献する。
この大きな事前学習モデルは、Contrastive Learningパラダイムを使用する。
我々は,GoogleのパースペクティブAPIと手動アノテーションを用いて,反ユダヤ主義的・イスラム哲学的憎悪的な文章句の集合を識別する方法論を考案した。
次に、OpenAIのCLIPを用いて、我々のアンチセミティック/イラモフォビックテキスト句と非常によく似た画像を特定する。
18ヶ月にわたって4chanの/pol/で共有された66Mの投稿と5.8Mの画像を含むデータセット上で方法論を実行することで、21Kの反ユダヤ主義/Islamophic画像と420の憎しみのあるフレーズを含む246Kの投稿を含む173Kの投稿を検出する。
とりわけ、OpenAIのCLIPモデルを使って、0.81(F1スコア = 0.54)の正確さで、憎悪のあるコンテンツを検出することができる。
文献で提案した2つのベースラインとCLIPを比較して,CLIPの精度,精度,F1スコアにおいて,抗semitic/Islamophic画像の検出において優れていた。
また,<i>4chan</i>/<i>/</i>/<i>/</i>/<i>/</i>/</i>/<i>/</i>/<i>/</i>/</i>/<i>/</i>/</i>/<i>/</i>/</i>/</i>/<i>/</i>/<i>/</i>/</i>/<i><i>。
最後に,420の反ユダヤ・イラマフォビック・フレーズと21Kのおそらく反ユダヤ・イラマフォビック・イメージ(CLIPで自動検出)を含む246Kポストのデータセットを入手し,研究者が反ユダヤ・イラマフォビックの理解を深める手助けをする。
関連論文リスト
- Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - Overview of the HASOC Subtrack at FIRE 2023: Identification of Tokens
Contributing to Explicit Hate in English by Span Detection [40.10513344092731]
反応的に、ブラックボックスモデルを使ってヘイトフルコンテンツを特定すると、投稿が自動的にヘイトフルであるとフラグ付けされた理由について、ユーザーを混乱させる可能性がある。
ポストが公にされる前に、リフレージングを提案することで、積極的な緩和が達成できる。
論文 参考訳(メタデータ) (2023-11-16T12:01:19Z) - How toxic is antisemitism? Potentials and limitations of automated
toxicity scoring for antisemitic online content [0.0]
Perspective APIはGoogleとJigsawによるテキスト毒性評価サービスである。
我々は、有害な反ユダヤ主義のテキストがいかに評価され、また、有害性のスコアが、異なるアンチ・セミズムのサブフォームに関してどのように異なるかを示す。
基本レベルでは、パースペクティブAPIは、反ユダヤ主義的な内容が有毒であると認識するが、非明示的な反ユダヤ主義の形式に関して重大な弱点を示す。
論文 参考訳(メタデータ) (2023-10-05T15:23:04Z) - Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with
Text [130.89493542553151]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。
このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。
画像がインターリーブされた人気テキスト専用C4コーパスの拡張であるMultimodal C4をリリースする。
論文 参考訳(メタデータ) (2023-04-14T06:17:46Z) - On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive
Learning [18.794226796466962]
複数の画像から視覚要素を合成したり、テキスト情報をヘイトフル画像と融合させたりすることで、ヘイトフルミームがどのように生成されるかを研究する。
4chanから抽出したデータセット上の我々のフレームワークを用いて、Happy Merchantミームの3.3K変種を見つける。
我々のフレームワークは、ヘイトフルミームの新たな変種をフラグ付けすることで、人間のモデレーターを助けることができると期待している。
論文 参考訳(メタデータ) (2022-12-13T13:38:04Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - Keystroke Biometrics in Response to Fake News Propagation in a Global
Pandemic [77.79066811371978]
本研究では,キーストロークバイオメトリックスを用いたコンテンツ匿名化手法の提案と解析を行う。
フェイクニュースは、特に主要なイベントにおいて、世論を操作する強力なツールとなっている。
論文 参考訳(メタデータ) (2020-05-15T17:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。