論文の概要: Classification of Multimodal Hate Speech -- The Winning Solution of
Hateful Memes Challenge
- arxiv url: http://arxiv.org/abs/2012.01002v1
- Date: Wed, 2 Dec 2020 07:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 15:15:29.256725
- Title: Classification of Multimodal Hate Speech -- The Winning Solution of
Hateful Memes Challenge
- Title(参考訳): マルチモーダルヘイトスピーチの分類 -ヘイトフルミームチャレンジの勝利ソリューション-
- Authors: Xiayu Zhong
- Abstract要約: Hateful Memesは、マルチモーダル分類のための新しい課題セットである。
データセットに難易度のある例を追加して、ユニモーダル信号への依存を難しくする。
本稿では,マルチモーダルとルールを組み合わせた新しいモデルを提案し,それぞれ86.8%,0.923の精度でAUROCをランク付けする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful Memes is a new challenge set for multimodal classification, focusing
on detecting hate speech in multimodal memes. Difficult examples are added to
the dataset to make it hard to rely on unimodal signals, which means only
multimodal models can succeed. According to Kiela,the state-of-the-art methods
perform poorly compared to humans (64.73% vs. 84.7% accuracy) on Hateful Memes.
I propose a new model that combined multimodal with rules, which achieve the
first ranking of accuracy and AUROC of 86.8% and 0.923 respectively. These
rules are extracted from training set, and focus on improving the
classification accuracy of difficult samples.
- Abstract(参考訳): Hateful Memesは、マルチモーダルなミームにおけるヘイトスピーチの検出に焦点を当てた、マルチモーダルな分類のための新しい課題セットである。
複雑なサンプルがデータセットに追加され、単一モーダル信号への依存が困難になるため、マルチモーダルモデルのみが成功できる。
Kielaによると、最先端の手法は、Hateful Memesの人間(64.73%対84.7%の精度)と比べて性能が劣っている。
本稿では,マルチモーダルとルールを組み合わせた新しいモデルを提案し,それぞれ86.8%,0.923の精度でAUROCをランク付けする。
これらのルールはトレーニングセットから抽出され、難しいサンプルの分類精度の向上に重点を置いている。
関連論文リスト
- Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Hateful Memes Challenge: An Enhanced Multimodal Framework [0.0]
Facebook AIが提案したHateful Meme Challengeは、世界中の参加者を惹きつけている。
この問題に対して様々な最先端のディープラーニングモデルが適用されている。
本稿では,特徴抽出にTectronを活用することを含め,ヘイトフル検出の枠組みを強化する。
論文 参考訳(メタデータ) (2021-12-20T07:47:17Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Enhance Multimodal Model Performance with Data Augmentation: Facebook
Hateful Meme Challenge Solution [3.8325907381729496]
Facebookのヘイトフルミームチャレンジ(Hateful Memes Challenge)は、ヘイトフルスピーチを検出するために競技者に挑戦することで、そのような可能性を達成するのに役立つ。
本稿では,VilBERT と Visual BERT を用いたマルチモーダル・事前学習モデルを提案する。
提案手法は0.7439 AUROCを精度0.7037で達成し,顕著な進歩を示した。
論文 参考訳(メタデータ) (2021-05-25T01:07:09Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z) - Detecting Hate Speech in Memes Using Multimodal Deep Learning
Approaches: Prize-winning solution to Hateful Memes Challenge [0.0]
Hateful Memes Challengeは、マルチモーダルミームでヘイトスピーチを検出することに焦点を当てた、初めてのコンペティションです。
画像やキャプションをマルチモーダルにトレーニングした VisualBERT -- 視覚と言語のBERT - を活用しています。
提案手法は,チャレンジテストセットの精度0.765の0.811 AUROCを達成し,Hateful Memes Challengeの参加者3,173名中3位に位置づけた。
論文 参考訳(メタデータ) (2020-12-23T21:09:52Z) - The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes [43.778346545763654]
本研究は,マルチモーダルなミームにおけるヘイトスピーチの検出に着目した,マルチモーダルな分類のための新しい課題セットを提案する。
ユニモーダルモデルが苦戦し、マルチモーダルモデルのみが成功するように構築されている。
最先端の手法は人間に比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-05-10T21:31:00Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。