Internet memes have emerged as an increasingly popular means of communication
on the Web. Although typically intended to elicit humour, they have been
increasingly used to spread hatred, trolling, and cyberbullying, as well as to
target specific individuals, communities, or society on political,
socio-cultural, and psychological grounds. While previous work has focused on
detecting harmful, hateful, and offensive memes, identifying whom they attack
remains a challenging and underexplored area. Here we aim to bridge this gap.
In particular, we create a dataset where we annotate each meme with its
victim(s) such as the name of the targeted person(s), organization(s), and
community(ies). We then propose DISARM (Detecting vIctimS targeted by hARmful
Memes), a framework that uses named entity recognition and person
identification to detect all entities a meme is referring to, and then,
incorporates a novel contextualized multimodal deep neural network to classify
whether the meme intends to harm these entities. We perform several systematic
experiments on three test setups, corresponding to entities that are (a) all
seen while training, (b) not seen as a harmful target on training, and (c) not
seen at all on training. The evaluation results show that DISARM significantly
outperforms ten unimodal and multimodal systems. Finally, we show that DISARM
is interpretable and comparatively more generalizable and that it can reduce
the relative error rate for harmful target identification by up to 9 points
absolute over several strong multimodal rivals.
DISARM: Detecting the Victims Targeted by Harmful Memes
DisARM: 有害なミームを狙った被害者を検知
0.67
Shivam Sharma1,3, Md.
Shivam Sharma1,3, Md。
0.37
Shad Akhtar1, Preslav Nakov2, Tanmoy Chakraborty1
Shad Akhtar1, Preslav Nakov2, Tanmoy Chakraborty1
0.44
1Indraprastha Institute of Information Technology - Delhi, India
1Indraprastha Institute of Information Technology - インド・デリー
0.83
2Qatar Computing Research Institute, HBKU, Doha, Qatar
2Qatar Computing Research Institute, HBKU, Doha, Qatar
0.46
3Wipro AI Labs, India
インドの3Wipro AI Labs
0.90
{shivams, shad.akhtar, tanmoy}@iiitd.ac.in
shivams, shad.akhtar, tanmoy}@iiitd.ac.in
0.37
pnakov@hbku.edu.qa
pnakov@hbku.edu.qa
0.29
Abstract 2 2 0 2
概要 2 2 0 2
0.43
y a M 1 1
y a m 1 1 である。
0.65
] L C . s c [ 1 v 8 3 7 5 0
]LC。 sc [ 1 v 8 3 7 5 0
0.30
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Internet memes have emerged as an increasingly popular means of communication on the Web.
インターネットミームは、ウェブ上でのコミュニケーション手段としてますます人気が高まっている。
0.69
Although typically intended to elicit humour, they have been increasingly used to spread hatred, trolling, and cyberbullying, as well as to target specific individuals, communities, or society on political, socio-cultural, and psychological grounds.
While previous work has focused on detecting harmful, hateful, and offensive memes, identifying whom they attack remains a challenging and underexplored area.
In particular, we create a dataset where we annotate each meme with its victim(s) such as the name of the targeted person(s), organization(s), and community(ies).
We then propose DISARM (Detecting vIctimS targeted by hARmful Memes), a framework that uses named entity recognition and person identification to detect all entities a meme is referring to, and then, incorporates a novel contextualized multimodal deep neural network to classify whether the meme intends to harm these entities.
We perform several systematic experiments on three test setups, corresponding to entities that are
3つのテストの設定でいくつかの系統的な実験を行いました。
0.64
(a) all seen while training,
(a)すべて訓練中に見られる。
0.74
(b) not seen as a harmful target on training, and
(b)訓練上の有害な標的とは見なされず、
0.78
(c) not seen at all on training.
(c)訓練では全く見られなかった。
0.79
The evaluation results show that DISARM significantly outperforms ten unimodal and multimodal systems.
評価結果から,disARMは10の単一モード・マルチモーダルシステムより有意に優れていた。
0.46
Finally, we show that DISARM is interpretable and comparatively more generalizable and that it can reduce the relative error rate for harmful target identification by up to 9 points absolute over several strong multimodal rivals.
Introduction 1 Social media offer the freedom and the means to express deeply ingrained sentiments, which can be done using diverse and multimodal content such as memes.
Besides being popularly used to express benign humour, Internet memes have also been misused to incite extreme reactions, hatred, and to spread disinformation on a massive scale.
Figure 1: (a) A meme that targets Justin Trudeau in a harmful way, with a communal angle.
図1 (a)ジャスティン・トルドーを害な方法で、共同の角度で狙うミーム。
0.53
(b) A non-harmful mention of Justin Trudeau, as a benign humor.
(b)無害なユーモアとして、ジャスティン・トルドーに不名誉な言及。
0.61
Numerous recent efforts have attempted to characterize harmfulness (Pramanick et al , 2021b), hate speech (Kiela et al , 2020), and offensiveness (Suryawanshi et al , 2020) within memes.
近年では、有害性(Pramanick et al , 2021b)、ヘイトスピーチ(Kiela et al , 2020)、攻撃性(Suryawanshi et al , 2020)をミーム内で特徴づけようとしている。
0.77
Most of these efforts have been directed towards detecting malicious influence within memes, but there has been little work on identifying whom the memes target.
Besides detecting whether a meme is harmful, it is often important to know whether the meme contains an entity that is particularly targeted in a harmful way.
Harmful targeting in memes is often done using satire, sarcasm, or humour in an explicit or an implicit way, aiming at attacking an individual, an organization, a community, or society in general.
For example, Fig 1a depicts Justin Trudeau, the Prime Minister of Canada, as communally biased against Canadians, while favoring alleged killings by Muslims, whereas Fig 1b shows an arguably benign meme of the same person expressing subtle humour.
Note that in many cases interpreting memes and their harmful intent requires some additional background knowledge for the meme to be understood properly.
Hence, an automated system for detecting the entities targeted by harmful memes faces two major challenges:
したがって、有害なミームを標的とした物体の自動検出システムは、2つの大きな課題に直面している。
0.53
(i) insufficient background context,
(i)背景文脈が不十分である。
0.59
(ii) complexity posed by the implicit harm, and
(ii)暗黙の害によって生じる複雑さ
0.77
(iii) keyword bias in a supervised setting.
(iii)教師付き設定におけるキーワードバイアス。
0.70
To address these challenges, here we aim to address the task of harmful target detection in memes by formulating it as an open-ended task, where a meme can target an entity not seen on training.
(i) identifying the entities referred to in the meme, and
(i)ミームでいう実体を識別すること、及び
0.56
(ii) deciding whether each of these entities is being targeted in a harmful way.
(ii)各団体が有害な方法で標的にされているかどうかを決定すること。
0.65
To address these two tasks, we perform systematic contextualization of the multimodal information presented within the meme by first performing intra-modal fusion between an external knowledge-based contextualized-entit y and the textually-embedded harmfulness in the meme, which is followed by cross-modal fusion of the contextualized textual and visual modalities using low-rank bi-linear pooling, resulting in an enriched multimodal representation.
We evaluate our model using three-level stress-testing to better assess its generalizability to unseen targets.
本研究では,3レベルストレステストによるモデルの評価を行い,その一般化性を評価する。
0.53
We create a dataset, and we propose an experimental setup and a model to address the aforementioned requirements, making the following contributions:1:
2. We create a new dataset for this new task, Ext-Harm-P, by extending Harm-P (Pramanick et al , 2021b) via re-annotating each harmful meme with the entity it targets.
2) この新たなタスクであるExt-Harm-Pのための新しいデータセットを作成し、Harm-P(Pramanick et al , 2021b)をターゲットとするエンティティで各有害ミームを再注釈することで拡張する。
0.68
3. We propose DISARM, a novel multimodal neural architecture that uses an expressive contextualized representation for detecting harmful targeting in memes.
4. We empirically showcase that DISARM outperforms ten unimodal and multimodal models by several points absolute in terms of macro-F1 scores in three different evaluation setups.
ity and interpretability. 1The source code and the dataset can be found here
性と解釈性。 1 ソースコードとデータセットはここにある。
0.71
https://github.com/L CS2-IIITD/DISARM.
https://github.com/L CS2-IIITD/DISARM
0.19
2 Related Work Misconduct on Social Media.
2 関連作業 ソーシャルメディアの過ち。
0.68
The rise in misconduct on social media is a prominent research topic.
ソーシャルメディアにおける不正行為の増加は、顕著な研究トピックである。
0.68
Some forms of online misconduct include rumours (Zhou et al , 2019), fake news (Aldwairi and Alwahedi, 2018; Shu et al , 2017; Nguyen et al , 2020), misinformation (Ribeiro et al , 2021; Shaar et al , 2022), disinformation (Alam et al , 2021; Hardalov et al , 2022), hate speech (MacAvaney et al , 2019; Zhang and Luo, 2019; Zampieri et al , 2020), trolling (Cook et al , 2018), and cyber-bullying (Kowalski et al , 2014; Kim et al , 2021).
ネット上の不正行為には、噂(Zhou et al , 2019)、偽ニュース(Aldwairi and Alwahedi, 2018; Shu et al , 2017; Nguyen et al , 2020)、誤情報(Ribeiro et al , 2021; Shaar et al , 2022)、偽情報(Alam et al , 2021; Hardalov et al , 2022)、ヘイトスピーチ(MacAvaney et al , 2019)、Zhang and Luo, 2019; Zampieri et al , 2020)、トロリング(Cook et al , 2018; Kowalski et al , 2014; Kim et al , 2021)などがある。
0.82
Some notable work in this direction includes stance (Graells-Garrido et al , 2020) and rumour veracity prediction, in a multi-task learning framework (Kumar and Carley, 2019), wherein the authors proposed a Tree LSTM for characterizing online conversations.
この方向の注目すべき業績には、マルチタスク学習フレームワーク(Kumar and Carley, 2019)におけるスタンス(Graells-Garrido et al , 2020)や噂の正確性予測などがあり、著者らはオンライン会話を特徴づけるためのTree LSTMを提案した。
0.65
Wu and Liu (2018) explored user and social network representations for classifying a message as genuine vs. fake.
Wu and Liu (2018)は、メッセージの真偽を分類するためのユーザーとソーシャルネットワークの表現を調査した。
0.82
Cheng et al (2017) studied user’s mood along with the online contextual discourse and demonstrated that it helps for trolling behaviour prediction on top of user’s behavioural history.
Cheng et al (2017)は、オンラインの文脈談話と共にユーザーの気分を研究し、ユーザーの行動履歴の上に行動予測をトロルさせるのに役立つことを示した。
0.75
Relia et al (2019) studied the synergy between discrimination based on race, ethnicity, and national origin in the physical and in the virtual space.
Relia et al (2019) は人種、民族、そして物理的および仮想空間における民族的起源に基づく差別のシナジーを研究した。
0.70
Studies Focusing on Memes.
ミームに焦点をあてた研究。
0.38
Recent efforts have shown interest in incorporating additional contextual information for meme analysis.
近年の取り組みは、ミーム分析のための追加の文脈情報の導入に関心を示している。
0.48
Shang et al (2021a) proposed knowledge-enriched graph neural networks that use common-sense knowledge for offensive memes detection.
Shang et al (2021a) は、攻撃的なミーム検出に常識知識を使用する知識豊富なグラフニューラルネットワークを提案した。
0.60
Pramanick et al (2021a) focused on detecting COVID-19related harmful memes and highlighted the challenge posed by the inherent biases within the existing multimodal systems.
pramanick et al (2021a)は、covid-19関連の有害なミームの検出に焦点を当て、既存のマルチモーダルシステム内の固有のバイアスによって引き起こされる課題を強調した。 訳抜け防止モード: pramanickら(2021a)が焦点を絞ったcovid-19関連有害ミームの検出 そして、既存のマルチモーダルシステム内の固有のバイアスによって引き起こされる課題を強調した。
0.57
Pramanick et al (2021b) released another dataset focusing on US Politics and proposed a multimodal framework for harmful meme detection.
pramanick et al (2021b)はアメリカ政治に焦点を当てたデータセットをリリースし、有害なミーム検出のためのマルチモーダルフレームワークを提案した。
0.59
The Hateful Memes detection challenge by Facebook (Kiela et al , 2020) introduced the task of classifying a meme as hateful vs. non-hateful.
facebookによるヘイトフルミーム検出チャレンジ(kiela et al, 2020)は、ミームをヘイトフル対非ヘイトフルに分類するタスクを導入した。 訳抜け防止モード: Facebook(Kiela et al, 2020)によるHateful Memes検出チャレンジでは、タスクが導入された。 ミームを憎しみと非憎しみと分類する。
0.72
Different approaches such as feature augmentation, attention mechanism, and multimodal loss re-weighting were attempted (Das et al , 2020; Sandulescu, 2020; Zhou et al , 2021; Lippe et al , 2020) as part of this task.
この課題の一環として,機能拡張,注意機構,マルチモーダルロスの重み付けといった異なるアプローチが試みられた(das et al, 2020, sandulescu, 2020, zhou et al, 2021; lippe et al, 2020)。
0.77
Oriol et al (2019) studied hateful memes by highlighting the importance of visual cues such as structural template, graphic modality, causal depiction, etc.
Oriol et al (2019)は、構造的テンプレート、グラフィックモダリティ、因果描写などの視覚的手がかりの重要性を強調して、憎しみのあるミームを研究した。 訳抜け防止モード: Oriol et al (2019 )は憎しみのあるミームを研究。 構造的テンプレート、グラフィックモダリティ、因果描写などの視覚的手がかりの重要性を強調する。
0.69
英語(論文から抽出)
日本語訳
スコア
Split Train Validation Test Total
分割 列車 検証 テスト総数
0.70
# Examples Category-wise # Samples.
#例 カテゴリ別#サンプル。
0.85
Not-harmful Harmful 3,618 216 612 4,446
害なし ハーモフル 3,618 216 612 4,446
0.40
1,206 72 316 1,594
1,206 72 316 1,594
0.34
2,412 144 296 2,852
2,412 144 296 2,852
0.33
Table 1: Summary of Ext-Harm-P, with overall and category-wise # of samples.
表1: Ext-Harm-Pの概要。
0.35
Web-entity detection along with fair face classification (Karkkainen and Joo, 2021) and semisupervised learning-based classification (Zhong, 2020) were also used for the hateful meme classification task.
ヘイトフルミーム分類タスクには,フェアフェイス分類(karkkainen and joo, 2021)や半教師付き学習ベース分類(zhong, 2020)とともにwebエンティティ検出が用いられた。
0.77
Other noteworthy research includes using implicit models, e g , topic modelling and multimodal cues, for detecting offensive analogy (Shang et al , 2021b) and hateful discrimination (Mittos et al , 2020) in memes.
その他の注目すべき研究は、暗黙のモデル、例えばトピックモデリングとマルチモーダルの手がかりを用いて、ミームにおける攻撃的アナロジー(shang et al , 2021b)と憎悪的差別(mittos et al , 2020)を検出することである。 訳抜け防止モード: その他の注目すべき研究には、暗黙のモデル、例えばトピックモデリングの利用がある。 and multimodal cues, for detection offensive analogy (shang et al, 2021b) ミームの憎しみのある差別(mittos et al, 2020)。
0.74
Wang et al (2021) argued that online attention can be garnered immensely via fauxtography, which could eventually evolve towards turning into memes that potentially go viral.
Wang et al (2021) は、オンラインの注意をファクストグラフィーによって大いに惹きつけることができ、最終的にはウイルスに感染する可能性のあるミームへと進化するかもしれないと主張した。
0.58
To support research on these topics, several datasets for offensiveness, hate speech, and harmfulness detection have been created (Suryawanshi et al , 2020; Kiela et al , 2020; Pramanick et al , 2021a,b; Gomez et al , 2020; Dimitrov et al , 2021; Sharma et al , 2022).
これらの研究を支援するために、攻撃性、ヘイトスピーチ、有害性検出のためのいくつかのデータセットが作成されている(Suryawanshi et al , 2020; Kiela et al , 2020; Pramanick et al , 2021a,b; Gomez et al , 2020; Dimitrov et al , 2021; Sharma et al , 2022)。
0.84
Most of the above studies attempted to address classification tasks in a constrained setting.
上記の研究のほとんどは、制約された設定で分類タスクを扱おうとした。
0.68
However, to the best of our knowledge, none of them targeted the task of detecting the specific entities that are being targeted.
3 Dataset The Harm-P dataset (Pramanick et al , 2021b) consists of 3,552 memes about US politics.
3データセット Harm-Pデータセット(Pramanick et al , 2021b)は、アメリカの政治に関する3,552のミームで構成されている。
0.65
Each meme is annotated with its harmful label and the social entity that it targets.
各ミームには、有害なラベルとそれがターゲットとする社会的実体が注釈付けされている。
0.56
The targeted entities are coarsely classified into four social groups: individual, organization, community, and the general public.
対象とする団体は、個人、組織、コミュニティ、一般の4つの社会グループに大まかに分類される。
0.75
While these coarse classes provide an abstract view of the targets, identifying the specific targeted person, organization, or community in a fine-grained fashion is also crucial, and this is our focus here.
Figure 2: Example meme, along with the candidate entities, harmful targets, and non-harmful references.
図2: 候補エンティティ、有害なターゲット、非有害な参照とともに、ミームの例。
0.71
Extending Harm-P (Ext-Harm-P).
harm-p (ext-harm-p) の拡張。
0.34
Towards generalizability, we extend Harm-P by redesigning the existing data splits as shown in Table 1.
汎用性に向けて、表1に示すように既存のデータ分割を再設計することでharm-pを拡張する。
0.57
We call the resulting dataset Ext-Harm-P.
得られたデータセットをExt-Harm-Pと呼ぶ。
0.45
It contains a total of 4,446 examples including 1,594 harmful and 2,852 non-harmful; both categories have references to a number of entities.
合計4,446の例があり、1,594の有害なものと2,852の無傷なものが含まれている。
0.71
For training, we use the harmful memes provided as part of the original dataset (Pramanick et al , 2021b), which we re-annotate for the fine-grained entities that are being targeted harmfully as positive samples (harmful targets).
トレーニングでは、原データセットの一部として提供される有害なミーム(Pramanick et al , 2021b)を使用し、有害なサンプル(有害なターゲット)として有害な対象となるきめ細かいエンティティに注釈を付けます。
0.64
This is matched with twice as many negative samples (not-harmful targets).
これは負のサンプルの2倍(有害ではないターゲット)と一致します。
0.67
For negative targets, we use the top-2 entities from the original entity lexicon, which are not labeled for harmfulness and have the highest lexical similarity with the meme text (Ferreira et al , 2016).
負のターゲットに対しては、有害性を示すラベルが付けられておらず、ミームテキストと最も語彙的類似性が高いオリジナルのエンティティ辞書の上位2エンティティを使用します(Ferreira et al , 2016)。
0.70
This at least ensures lexical similarity with the entities referenced within a meme, thereby facilitating a confounding effect (Kiela et al , 2020) as well.
これは少なくともミーム内で参照されるエンティティとの語彙的類似性を保証するため、コンバウンディング効果(Kiela et al , 2020)も促進される。
0.68
For the test set, all the entities are first extracted automatically using named entity recognition (NER) and person identification (PID)2.
This is followed by manual annotation of the test set.
この後、テストセットのマニュアルアノテーションが続く。
0.59
Dataset Annotation Process Since assessing the harmfulness of memes is a highly subjective task, our annotators were requested to follow four key steps when annotating each meme, aiming to ensure label consistency.
The example in Fig 2 demonstrates the steps taken while annotating: we first identify the candidate entities, and then we decide whether a given entity is targeted in a harmful way.
For the example on Fig 2, Bill Clinton, Hillary Clinton, and Democrat are targeted in the meme for influencing the appointment of their kin on government positions.
4. Finally, assign harmless references to entities under the non-harmful category.
4. 最後に、無害なカテゴリーのエンティティに無害な参照を割り当てる。
0.77
In the example on Fig 2, Donald Trump and White House would be annotated as non-harmful.
図2の例では、ドナルド・トランプとホワイトハウスは無害であると注釈される。
0.76
We had three annotators and a consolidator.
3人の注釈家と結束者がいました
0.32
The inter-annotator agreement before consolidation had a Fleiss Kappa of 0.48 (moderate agreement), and after consolidation it increased to 0.64 (substantial agreement).
The memes in Ext-Harm-P are about US Politics, and thus they prominently feature entities such as Joe Biden and Donald Trump, both harmfully and harmlessly.
The ratio between these types of referencing varies across individuals, organizations, and communities.
これらのタイプの参照の比率は、個人、組織、コミュニティによって異なる。
0.66
We can see in Fig 3 that the top-5 harmfully referenced individuals and organizations are observed to be subjected to a more relative harm (normalized by the number of occurrences of these entities in memes).
However, the stacked plots for the top-5 harmfully targeted communities Mexicans, Black, Muslim, Islam, and Russian in Fig 3c show relatively less harm targeting these communities.
Figure 4: The architecture of our proposed approach DISARM.
図4: 提案したアプローチのアーキテクチャ。
0.59
Here, cmm is the multimodal representation used for the final classification.
ここで、cmmは最終分類に使用されるマルチモーダル表現である。
0.76
4 Proposed Approach Our proposed model DISARM, as depicted in Fig. 4, is based on a fusion of the textual and the visual modalities, explicitly enriched via contextualised representations by leveraging CLIP (Radford et al , 2021).
4 提案手法 提案するモデルの非武装は,第4図に示すように,クリップ(radford et al, 2021)を利用して,文脈表現によって明示的に強化されたテキストと視覚モダリティの融合に基づいている。
0.70
We chose CLIP as a preferred encoder module for contextualization, due to its impressive zero-shot multimodal embedding capabilities.
CE is then fused with BERT-based (Devlin et al , 2019) embeddedharmfulness (EH) encoding fine-tuned on the OCR-extracted text and entities as inputs.
その後、CE は BERT ベースの (Devlin et al , 2019) 組み込みハームフルネス (EH) と融合し、OCR で抽出されたテキストとエンティティを入力として微調整する。
0.55
We call the resulting fusion output a contextualizedtext (CT) representation.
得られた融合出力を文脈化テキスト(CT)表現と呼ぶ。
0.78
CT is then fused with the contextualized-image (CI) representation, obtained using the CLIP encoder for the image.
CTは、画像のCLIPエンコーダを用いて取得した文脈化イメージ(CI)表現と融合する。
0.71
We, henceforth, refer to the resulting enriched representation as the contextualized multimodal (CMM) representation.
したがって、得られたリッチな表現を文脈化されたマルチモーダル(CMM)表現と呼ぶ。
0.66
We modify the multimodal lowrank bi-linear pooling (Kim et al , 2017) to fuse the input representation into a joint space.
入力表現を結合空間に融合させるために,マルチモーダル低ランク双線形プール (Kim et al , 2017) を改良する。
0.74
# of Memesjoe bidendonald trumpbarack obamahillary clintonmike pence0100200300400Ha rmfulNot-harmful# of Memesdemocratic partyrepublican partylibertarian partycnngovernment05 0100150200250Harmful Not-harmful# of Memesmexicansblackmu slimislamrussian0102 030HarmfulNot-harmfu lCLIP text-encoderCLIP image-encoder[Image]Multi-modal Low-rank Bi-linear PoolingConcatenation [Entity][Context][OCR-text, Entity]Embedding lookup
# of Memesjoe bidendonald trumpbarack obamahillary clintonmike pence0100400HarmfulN ot-harmful# of Memesdemocratic Partyrepublican Partylibertarian partycnn Government0501502002 50HarmfulNot-harmful # of Memesmexicansblackmu slimislamrusian01020 30HarmfulNot-harmful CLIP text-encoderCLIP image-encoder[Image]Multi-modal Low-rank Bi-linear PoolingConcatenation [Entity][Context][OCR-text, Entity]Embed lookupup
0.32
英語(論文から抽出)
日本語訳
スコア
This approach, as can be seen in the subsequent sections below, not only can capture complex cross-modal interactions, but it also provides an efficient fusion mechanism towards obtaining a context-enriched representation.
Finally, we use this representation to train a classifier for our task.
最後に、この表現を使ってタスクの分類器を訓練します。
0.61
We describe each module in detail below.
以下、各モジュールについて詳述する。
0.71
Low-rank Bi-linear Pooling (LRBP).
低ランクBi-linear Pooling (LRBP)。
0.68
We begin by revisiting low-rank bi-linear pooling to set the necessary background.
まず、必要な背景を設定するために、低ランクの双線型プーリングを再検討する。
0.43
Due to the many parameters in bi-linear models, Pirsiavash et al (2009) suggested a low-rank bi-linear (LRB) approach to reduce the rank of the weight matrix Wi.
双線型モデルの多くのパラメータのため、Pirsiavash et al (2009) は重量行列 Wi のランクを下げるために低ランク双線形(LRB)アプローチを提案した。
0.77
Consequently, the number of parameters and hence the complexity, are reduced.
その結果、パラメータの数、したがって複雑さが減少する。
0.74
The weight matrix Wi is re-written as Wi = UiVT i , where Ui ∈ RN×d and Vi ∈ RM×d, effectively putting an upper bound of min(N, M ) on the value of d.
重み行列 Wi は Wi = UiVT i と書き直され、ここで Ui ∈ RN×d と Vi ∈ RM×d は d の値に min(N, M ) の上界を効果的に配置する。
0.81
Therefore, the low-rank bi-linear models can be expressed as follows:
したがって、下記の低位双線型モデルを表現することができる。
0.75
i x ◦ VT
i x > VT である。
0.61
i y) T (UT
I y) T (UT)
0.43
i y = 1 fi = xT Wiy = xT UiVT
i y = 1 fi = xT Wiy = xT UiVT
0.43
(1) where 1 ∈ Rd is a column vector of ones, and ◦ is Hadamard product.
fi in Equation (1) can be further re-written to obtain f as follows: f = PT (UT x ◦ VT y) + b
方程式 (1) における fi は f を得るためにさらに次のように書き直せる: f = pt (ut x , vt y) + b
0.84
(2) where f ∈ {fi}, P ∈ Rd×c, b ∈ Rc, d is an output, and c is an LRB hyper-parameter.
2) ここで f ∈ {fi}, p ∈ rd×c, b ∈ rc, d は出力、c は lrb ハイパーパラメータである。 訳抜け防止モード: (2 ) ここで f ∈ { fi }, P ∈ Rd×c である。 b ∈ Rc, dは出力です c は LRB hyper-パラメータです。
0.78
We further introduce a non-linear activation formulation for LRBP, following Kim et al (2017), who argued that non-linearity both before and after the Hadamard product complicates the gradient computation.
さらに、Kim et al (2017) に続き、アダマール積の前後の非線形性は勾配計算を複雑にすると主張したLRBPの非線形活性化定式化を導入する。
0.71
This addition to Equation (2) can be represented as follows:
Equation (2) へのこの追加は次のように表現できる。
0.78
f = PT tanh(UT x ◦ VT y) + b
f = PT tanh(UT x > VT y) + b
0.41
(3) We slightly modify the multimodal low-rank bi-linear pooling (MMLRBP).
Instead of directly projecting the input x ∈ RN and y ∈ RM into a lower dimension d, we first project the input modalities in a joint space N. We then perform LRBP as expressed in Equation 3, by using jointly embedded representations xmm ∈ RN×d and ymm ∈ RN×d to obtain a multimodal fused representation fmm, as expressed below:
入力 x ∈ rn と y ∈ rm を直接低次元 d に投影する代わりに、まずジョイント空間 n の入力モダリティを投影し、次に式 3 で表現された lrbp を実行し、xmm ∈ rn×d と ymm ∈ rn×d を共同で埋め込み表現し、以下で示すように多様融合表現 fmm を得る。 訳抜け防止モード: 入力 x ∈ RN と y ∈ RM を直接下次元 d に射影する代わりに。 まず、結合空間 N において入力モダリティを射影し、次に方程式 3 で表される LRBP を実行する。 結合埋め込み表現 xmm ∈ RN×d と ymm ∈ RN×d を用いることで 以下に示すようなマルチモーダル融合表現fmmを得る
0.78
Structured Context.
構造化コンテキスト。
0.74
Towards modelling auxiliary knowledge, we curate contexts for the memes in Ext-Harm-P.
補助知識のモデル化に向けて, Ext-Harm-Pにおけるミームの文脈をキュレートする。
0.48
First, we use the meme text as a search query3 to retrieve relevant contexts, using the title and the first paragraph of the resulting top document as a context, which we call con.
Since we have a finite set of entities referenced in the memes in our training dataset, we perform a lookup in the embedding matrix from RV ×H to obtain the corresponding entity embedding ent ∈ RH, with H = 300 being the embedding dimension and V the vocabulary size.
トレーニングデータセットのミームに参照されるエンティティの有限集合が存在するので、RV ×H から埋め込み行列のルックアップを行い、対応するエンティティ埋め込み ent ∈ RH を得る。 訳抜け防止モード: トレーニングデータセットには、ミームに参照されるエンティティの有限セットがある。 RV ×H から埋め込み行列のルックアップを行い、対応する実体 ent ∈ RH を得る。 H = 300 が埋め込み次元、V が語彙サイズである。
0.66
We train the embedding matrix from scratch as part of the overall training of our model.
モデル全体のトレーニングの一部として、組み込みマトリックスをスクラッチからトレーニングします。
0.63
We project the obtained entity representation ent into a 512dimensional space, which we call e.
得られた実体表現 ent を 512次元空間に投影し、それを e と呼ぶ。
0.73
To augment a given entity with relevant contextual information, we fuse it with a contextual representation c ∈ R512 obtained by encoding the associated context (con) using CLIP.
関連するコンテキスト情報を持つエンティティを拡大するために、CLIPを用いて関連するコンテキスト(con)を符号化して得られたコンテキスト表現 c ∈ R512 と融合する。
0.71
We perform this fusion using our adaptation of the multimodal low-rank bi-linear pooling as defined by Equation (4).
Once we obtain the contextualized-entit y embedding cent, we concatenate it with the BERT encoding for the combined representation of the OCR-extracted text and the entity (oent ∈ R768).
We call this encoding an embedded-harmfulness (EH) representation.
これをeh表現(embedd-harmfulness) と呼ぶ。
0.55
The concatenated representation from R1280 is then projected non-linearly into a lower dimension using a dense layer of size 512.
r1280からの連結表現は、サイズ512の高密度層を用いて非線形に下次元に投影される。
0.69
We call the resulting vector ctxt a contextualized-text (CT) representation:
得られたベクトルctxtを文脈化テキスト(CT)表現と呼びます。
0.73
ctxt = Wi[oent, cent] + bi
ctxt = Wi[oent, cent] + bi
0.43
(6) where W ∈ R1280×512.
(6) W ∈ R1280×512。
0.60
fmm = PT tanh(UT xmm ◦ VT ymm)
fmm = PT tanh(UT xmm > VT ymm)
0.41
(4) 3https://pypi.org/pr oject/
(4) 3https://pypi.org/pr oject/
0.31
googlesearch-python/
googlesearch-python/
0.24
英語(論文から抽出)
日本語訳
スコア
Contextualized Multimodal (CMM) Representation.
コンテキスト型マルチモーダル(CMM)表現。
0.74
Once we obtain the contextualized-text representation ctxt ∈ R512, we again perform multimodal low-rank bi-linear pooling using Equation (4) to fuse it with the contextualizedimage representation cimg ∈ R512, obtained using the CLIP image-encoder.
2 cimg) Notably, we learn two different projection matrices P1 and P2, for the two fusion operations performed as part of Equations (5) and (7), respectively, since the fused representations at the respective steps are obtained using different modality-specific interactions.
Classification Head. Towards modelling the binary classification for a given meme and a corresponding entity as either harmful or non-harmful, we use a shallow multi-layer perceptron with a single dense layer of size 256, which represents a condensed representation for classification.
We finally map this layer to a single dimension output via a sigmoid activation.
最終的にこの層をシグモノイド活性化による1次元の出力にマッピングする。
0.74
We use binary crossentropy for the back-propagated loss.
バックプロパゲーション損失にはバイナリクロスエントロピーを使用します。
0.59
5 Experiments various experiment with
5 実験 様々な 実験して
0.76
unimodal We (image/text-only) and multimodal models, including such pre-trained on multimodal datasets such as MS COCO (Lin et al , 2014) and CC (Sharma et al , 2018).
unimodal We (画像/テキストのみ)とマルチモーダルモデル(MS COCO (Lin et al , 2014)やCC (Sharma et al , 2018)のようなマルチモーダルデータセットで事前トレーニングされたモデルを含む。
0.80
We train DISARM and all unimodal baselines using PyTorch, while for the multimodal baselines, we use the MMF framework.4 5
5.1 Evaluation Measures For evaluation, we use commonly used macroaverage versions of accuracy, precision, recall, and F1 score.
5.1 評価尺度では, 精度, 精度, リコール, F1 スコアのマクロ平均値を用いて評価を行った。
0.75
For example, we discuss the harmful class recall, which is relevant for our study as it characterizes the model’s performance at detecting harmfully targeting memes.
Evaluation Strategy. With the aim of having a realistic setting, we pose our evaluation strategy as an open-class one.
評価戦略。 現実的な設定を目指して、我々は評価戦略をオープンクラスとして採用する。
0.53
We train all systems using under-sampling of the entities that were not targeted in a harmful way: using all positive (harmful) examples and twice as many negative (nonharmful) ones.
We then perform an open-class testing, for all referenced entities (some possibly unseen on training) per meme, effectively making the evaluation more realistic.
Our baselines include both unimodal and multimodal models as follows: – Unimodal Systems: (cid:73) VGG16, VIT: For the unimodal (image-only) systems, we use two well-known models: VGG16 (Simonyan and Zisserman, 2015) and VIT (Vision Transformers) that emulate a Transformer-based application jointly over textual tokens and image patches (Dosovitskiy et al , 2021).
ユニモーダルシステム: (cid:73) vgg16, vit: ユニモーダル(画像のみ)システムでは、vgg16 (simonyan and zisserman, 2015) と vit (vision transformers) の2つのよく知られたモデルを使用しており、テキストトークンとイメージパッチ(dosovitskiy et al, 2021)を介してトランスフォーマベースのアプリケーションをエミュレートしています。
0.70
(cid:73) GRU, XLNet: For the unimodal (text-only) systems, we use GRU (Cho et al , 2014), which adaptively captures temporal dependencies, and XLNet (Yang et al , 2019), which implements a generalized auto-regressive pre-training strategy.
(cid:73) GRU, XLNet: ユニモーダル(テキストのみ)システムでは、時間的依存関係を適応的にキャプチャするGRU(Cho et al , 2014)と、一般化された自動回帰事前トレーニング戦略を実装したXLNet(Yang et al , 2019)を使用します。
0.58
– Multimodal Systems: (cid:73) MMF Transformer: This is a multimodal Transformer model that uses visual and language tokens with selfattention.6 (cid:73) MMBT: Multimodal Bitransformer (Kiela et al , 2019) captures the intramodal and the inter-modal dynamics.
マルチモーダルシステム: (cid:73) mmfトランスフォーマー: 視覚および言語トークンを用いたマルチモーダルトランスフォーマーモデルで、セルフアテンション.6 (cid:73) mmbt: multimodal bitransformer (kiela et al , 2019) はイントラモーダルとインターモーダルダイナミクスをキャプチャする。
0.84
(cid:73) ViLBERT CC: Vision and Language BERT (Lu et al , 2019), pre-trained on CC (Sharma et al , 2018), is a strong model with task-agnostic joint representation.
(cid:73) ViLBERT CC: Vision and Language BERT (Lu et al , 2019), CC (Sharma et al , 2018) はタスク非依存の関節表現を持つ強力なモデルである。
0.57
(cid:73) Visual BERT COCO: Visual BERT (Li et al , 2019), pre-trained on the MS COCO dataset (Lin et al , 2014).
(cid:73) Visual BERT COCO: Visual BERT (Li et al , 2019) MS COCOデータセット(Lin et al , 2014)で事前トレーニング。
0.57
6http://mmf.sh/docs/ notes/model_zoo
6http://mmf.sh/docs/ notes/model_zoo
0.14
英語(論文から抽出)
日本語訳
スコア
System Modality Approach
システムモダリティアプローチ
0.69
Acc Prec Rec
Acc 序文 レクリエーション
0.28
F1 Test Set A
F1 テストセットA
0.79
Acc Prec Rec
Acc 序文 レクリエーション
0.28
F1 Test Set B
F1 テストセットB
0.79
0.4060 XLNet Text-only 0.6765 0.4101 VGG Image-only 0.7451 0.4210 GRU Text-only 0.7484 0.4843 VIT Image only 0.7647 0.4302 ViLBERT CC 0.6895 0.5032 MM Transformer 0.6993 0.5108 VisualBERT 0.7026 0.5147 VisualBERT – COCO 0.7059 0.5310 0.7157 MMBT 0.5782 0.7516 ViLBERT CE + CI (concat) 0.4230 0.7353 0.781 CE + CI (MMLRBP) 0.5079 EH + CI (concat) 0.4964 0.6634 EH + CI (MMLRBP) 0.5470 0.7255 0.781 0.6498 DISARM ↑ 2.94% ↓ 1.5% ↑ 8% ↑ 3.5% ↓ 4% ↑ 13% ↑ 1% ↑ 4% ↑ 7.88% ↑ 2.5% ↑ 14.5% ↑ 7.16%
0.4060 xlnet テキストオンリー 0.6765 0.4101 vgg 画像オンリー 0.7451 0.4210 gru テキストオンリー 0.7484 0.4843 vit 画像のみ 0.7647 0.4302 vilbert cc 0.6895 0.5032 mm トランスフォーマー 0.6993 0.5108 visualbert 0.7026 0.5147 visualbert – coco 0.7059 0.5310 0.7157 mmbt 0.5782 0.7516 vilbert ce + ci (concat) 0.4230 0.7353 0.781 ce + ci (mmlrbp) 0.5079 eh + ci (concat) 0.4964 0.6634 eh + ci (mmlrbp) 0.5470 0.7255 0.781 0.6498 disarm (mmlrbp) 0.5464 0.6634 eh + ci (mmlrbp) 0.5470 0.7255 0.781 0.6498 disarm ...94% % % % % % % % % % % % % % % % % % である。
GRU Text-only VIT Image only XLNet Text-only VGG Image-only ViLBERT CC VisualBERT MM Transformer ViLBERT VisualBERT – COCO MMBT CE + CI (concat) CE + CI (MMLRBP) EH + CI (concat) EH + CI (MMLRBP) DISARM
GRU Text-only VIT Image only XLNet Text-only VGG Image-only ViLBERT CC VisualBERT MM Transformer ViLBERT VisualBERT – COCO MMBT CE + CI (concat) CE + CI (MMLRBP) EH + CI (concat) EH + CI (MMLRBP) DISARM
Experimental Results. We compare the performance of several unimodal and multimodal systems (pre-trained or trained from scratch) vs. DISARM and its variants.
All systems are evaluated using the 3-way testing strategy described above.
すべてのシステムは上記の3方向テスト戦略を用いて評価される。
0.70
We then perform ablation studies on representations that use the contextualized-entit y, its fusion with embedded-harmfulness resulting into contextualized-text, and the final fusion with contextualized-image yielding the contextualizedmultim odal modules of DISARM (see Appendix B for a detailed ablation study).7
Finally, we discuss the limitations of DISARM by performing error analysis (details in Appendix C).
最後に、エラー解析(Appendix Cの詳細)によってdisARMの限界について議論する。
0.70
All Entities Seen During Training: In our unimodal text-only baseline experiments, the GRUbased system yields a relatively lower harmful recall of 0.74 compared to XLNet’s 0.82, but a better overall F1 score of 0.75 vs. 0.67 for XLNet, as shown in Table 2.
All Entities Seen Training: 原文のみのベースライン実験では、GRUベースのシステムは、XLNetの0.82よりも比較的低い0.74の有害リコールが得られるが、表2に示すように、全体的なF1スコアは0.75対0.67である。
0.69
The lower harmful precision of 0.65 and the not-harmful recall of 0.52 contribute to the lower F1 score for XLNet.
0.65の低い有害精度と0.52の無害リコールは、XLNetの低いF1スコアに寄与する。
0.68
7We use the abbreviations CE, CT, CI, CMM, EH, and MMLRBP for the contextualized representations of the entity, the text, the image, the multimodal representation, the embedded-harmfulness , and the multimodal low-rank bilinear pooling, respectively.
Among the image-only unimodal systems, VGG performs better with a non-harmful recall of 0.81, but its poor performance for detecting harmful memes yields a lower harmful recall of 0.68.
At the same time, VIT has a relatively better harmful recall of 0.74.
同時に、VITは0.74の比較的良い有害なリコールを持っている。
0.61
Overall, the unimodal results (see Table 2) indicate the efficacy of self-attention over convolution for images and RNN (GRU) sequence modeling for text.
Multimodally pre-trained models such as VisualBERT and ViLBERT yield moderate F1 scores of 0.70 and 0.68, and harmful recall of 0.78 and 0.77, respectively (see Table 2).
Fresh training facilitates more meaningful results in favour of nonharmful precision of 0.78 for both models, and harmful recall of 0.84 and 0.82 for VisualBERT and ViLBERT, respectively.
Finally, DISARM yields a balanced F1 score of 0.78, with a reasonable precision of 0.74 for nonharmful category, and the best recall of 0.86 for the harmful category.
All Entities Unseen as Harmful Targets During Training: With Test Set B, the evaluation is slightly more challenging in terms of the entities to be assessed, as these were never seen at training time as harmful.
(b) MM-AT-CLIP Target Candidate→democratic party Context→Politics tears families apart during bruising political season, when many Americans drop friends and family members who have different political views.
b)mm-at-clip target candidate→democratic party context→politics tears families between bruing political season (b) 多くのアメリカ人は、異なる政治的見解を持つ友人や家族を捨てた。
0.67
(d) V-AT-ViLBERT
(d)V-AT-VilBERT
0.27
Figure 5: Comparison of the attention-maps for DISARM [
図5: DisARM の注意マップの比較 [in Japanese]
0.75
(a), (b) & (c)] and ViLBERT [
(a) (b)& (c) と ViLBERT [
0.45
(d)] using BertViz and Grad-CAM.
(d) BertViz と Grad-CAM を使用する。
0.84
Unimodal systems perform poorly on the harmful class, with the exception of XLNet (see Table 2), where the harmful class recall as 0.56.
For the multimodal baselines, systems pre-trained using COCO (VisualBERT) and CC (ViLBERT) yield a moderate recall of 0.64 and 0.71 for the harmful class in contrast to what we saw for Test Set A in Table 2.
マルチモーダルベースラインでは、COCO(VisualBERT)とCC(ViLBERT)を用いて事前訓練したシステムでは、表2のTest Set Aで見たものとは対照的に有害なクラスに対して0.64と0.71の適度なリコールが得られる。 訳抜け防止モード: マルチモーダルベースラインのための事前訓練システム COCO (VisualBERT ) と CC (ViLBERT ) 有害な階級に対する0.64と0.71の適度なリコールを、それとは対照的に与える 表2でテストセットAを見ました。
0.78
This could be due to additional common-sense reasoning helping such systems, on a test set that is more open-ended compared to Test Set A. Their non-pre-trained versions along with the MM Transformer and MMBT achieve better F1 scores, but with low harmful recall.
In comparison, DISARM yields a balanced F1 score of 0.65 with the best precision of 0.83 and 0.38, along with decent recall of 0.79 and 0.69 for non-harmful and harmful memes, respectively.
All Entities Unseen During Training: The results decline in this scenario (similarly to Test Set B), except for the harmful class recall of 0.62 for XLNet, as shown in Table 3.
トレーニング中のすべてのエンティティ: 結果は、表3に示すように、xlnetの有害クラスリコール 0.62 を除いて、このシナリオ(テストセット b と同様)で低下する。
0.76
In the current scenario (Test Set C), none of the entities being assessed at testing is seen during the training phase.
現在のシナリオ(Test Set C)では、トレーニングフェーズでテストで評価されているエンティティはどれも見えません。
0.78
For multimodal baselines, we see a similar trend for VisualBERT (COCO) and ViLBERT (CC), with the harmful class recall of 0.72 for ViLBERT (CC) being significantly better than the 0.12 for VisualBERT (COCO).
This again emphasizes the need for the affinity between the pre-training dataset and the downstream task at hand.
これにより、事前トレーニングデータセットと手前の下流タスクとの親和性の必要性が再び強調される。
0.55
In general, the precision for the harmful class is very low.
一般に、有害な階級の精度は非常に低い。
0.65
We observe (see Table 3) sizable boost for the harmful class recall for MMLRBP-based multimodal fusion of CI with CE (0.69%), against a decrease with EH (0.31%).
Moreover, besides yielding reasonable precision and recall of 0.86 and 0.76 for the non-harmful class, DISARM achieves better average precision, recall, and F1 scores of 0.61, 0.73, and 0.64, respectively.
The prediction for entities completely unseen on training yields better results (see Tables 2 and 3), and suggests possibly induced bias in the former scenario.
Overall, we argue that DISARM generalizes well for unseen entities with 0.65 and 0.64 macroF1 scores, as compared to ViLBERT’s 0.58 and MMBT’s 0.51, for Test Sets B and C, respectively.
全体として DisARM は、テストセット B と C の ViLBERT の 0.58 と MMBT の 0.51 と比較すると、0.65 と 0.64 のマクロF1 スコアを持つ未確認のエンティティに対してよく一般化されていると論じている。
0.59
Diagnosis. Despite
診断。 にもかかわらず
0.53
Comparative the marginally better harmful recall for ViLBERT (CC) on Test Set B (see Table 2) and Test Set C (see Table 3), the overall balanced performance of DISARM appears to be reasonably justified based on the comparative interpretability analysis between the attention maps for the two systems.
テストセットB(表2)とテストセットC(表3)のViLBERT(CC)を比べれば、DIARMの全体的なバランスの取れた性能は、2つのシステムのアテンションマップ間の相対的解釈可能性分析に基づいて合理的に正当化される。 訳抜け防止モード: テストセットBにおける ViLBERT (CC) の安全性比較 表2を参照。 ) と Test Set C () 表3参照。 ) DisARM の全体的な均衡性能 2つのシステムに対するアテンションマップ間の比較解釈可能性分析に基づいて、合理的に正当化する。
0.79
英語(論文から抽出)
日本語訳
スコア
Fig. 5 shows the attention maps for an example meme.
図5は、例のミームのアテンションマップを示しています。
0.69
It depicts a meme that is correctly predicted to harmfully target the Democratic Party by DISARM and incorrectly by ViLBERT.
The multimodal attention leveraged by DISARM is depicted (via the CLIP encoder) in Fig 5b, demonstrating the utility of contextualised attention over the male figure that represents an attack on the Democratic Party.
We then proposed a novel multimodal deep neural framework, called DISARM, which uses an adaptation of multimodal low-rank bi-linear pooling-based fusion strategy at different levels of representation abstraction.
We showed that DISARM outperforms various uni/multi-modal baselines in three different scenarios by 4%, 7%, and 13% increments in terms of macro-F1 score, respectively.
We finally analysed the shortcomings in DISARM that lead to incorrect harmful target predictions.
最終的に、不正な有害なターゲット予測につながるdisARMの欠点を分析しました。
0.61
In the present work, we made an attempt to elicit some inherent challenges pertaining to the task at hand: augmenting the relevant context, effectively fusing multiple modalities, and pretraining.
We acknowledge that detecting harmfulness can be subjective, and thus it is inevitable that there would be biases in our goldlabelled data or in the label distribution.
This is addressed by working on a dataset that is created using general keywords about US Politics, and also by following a well-defined schema, which sets explicit definitions for annotation.
Misuse Potential. Our dataset can be potentially used for ill-intended purposes, such as biased targeting of individuals/communit ies/organizations, etc. that may or may not be related to demographics and other information within the text.
Intervention with human moderation would be required to ensure that this does not occur.
人間のモデレーションによる介入は、これが起こらないことを保証するために必要となる。
0.53
Intended Use. We make use of the existing dataset in our work in line with the intended usage prescribed by its creators and solely for research purposes.
Acknowledgments The work was partially supported by a Wipro research grant, Ramanujan Fellowship, the Infosys Centre for AI, IIIT Delhi, and ihub-Anubhuti-iiitd Foundation, set up under the NM-ICPS scheme of the Department of Science and Technology, India.
承認 この研究は、Wiproの研究助成金、Ramanujan Fellowship、Infosys Centre for AI、IIIT Delhi、ihub-Anubhuti-iiitd Foundationによって部分的に支援された。 訳抜け防止モード: 承認 この研究は、部分的にはウィプロの研究助成金であるラマヌジャン・フェローシップによって支援された。 The Infosys Centre for AI, IIIT Delhi, and ihub - Anubhuti - iiitd Foundation, インド科学技術省のNM-ICPS計画の下で設立された。
0.57
It is also part of the Tanbih mega-project, developed at the Qatar Computing Research Institute, HBKU, which aims to limit the impact of “fake news,” propaganda, and media bias by making users aware of what they are reading, thus promoting media literacy and critical thinking.
それはまた、Katar Computing Research Institute(HBKU)で開発されたTanbihのメガプロジェクトの一部でもある。これは“フェイクニュース”やプロパガンダ、メディア偏見の影響を制限することを目的としている。 訳抜け防止モード: また、Katar Computing Research Institute(HBKU)で開発されたTanbih megaプロジェクトの一部でもある。 のプロパガンダの影響を制限することを目的としている。 メディアの偏見は 読者に何を読んでいるかを知らせ メディアのリテラシーと批判的思考を促進する
0.70
References Firoj Alam, Stefano Cresci, Tanmoy Chakraborty, Fabrizio Silvestri, Dimiter Dimitrov, Giovanni Da San Martino, Shaden Shaar, Hamed Firooz, and Preslav Nakov.
参照: Firoj Alam, Stefano Cresci, Tanmoy Chakraborty, Fabrizio Silvestri, Dimiter Dimitrov, Giovanni Da San Martino, Shaden Shaar, Hamed Firooz, Preslav Nakov。 訳抜け防止モード: firoj alam, stefano cresci, tanmoy chakraborty, fabrizio silvestriを参照。 dimiter dimitrov, giovanni da san martino, shaden shaar, hamed firooz, そして、プレスラヴ・ナコフ。
0.58
2021. A Survey on Multimodal Disinformation Detection.
2021. マルチモーダル情報検出に関する調査
0.52
arXiv 2103.12541.
arXiv 2103.12541
0.42
Monther Aldwairi and Ali Alwahedi.
monther aldwairiとali alwahedi。
0.31
2018. Detecting Fake News in Social Media Networks.
2018. ソーシャルメディア上での偽ニュースの検出。
0.57
Procedia Computer Science, 141:215–222.
Procedia Computer Science, 141:215–222。
0.71
Justin Cheng, Michael Bernstein, Cristian DanescuNiculescu-Miz il, and Jure Leskovec.
2017. Anyone Can Become a Troll: Causes of Trolling Behavior in Online Discussions.
2017. 誰でもトロルになれる:オンライン討論におけるトロール行動の原因。
0.53
In Proceedings of the 2017 ACM Conference on Computer Supported Cooperative Work and Social Computing, CSCW ’17, pages 1217–1230, Portland, Oregon, USA.
2017 acm conference on computer supported collaborative work and social computingの議事録では、cscw ’17, pages 1217–1230, oregon, usa. と題されている。
0.79
Association for Computing Machinery.
アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。
0.36
Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio.
Dimitar Dimitrov, Bishr Bin Ali, Shaden Shaar, Firoj Alam, Fabrizio Silvestri, Hamed Firooz, Preslav Nakov, and Giovanni Da San Martino.
Dimitar Dimitrov, Bishr Bin Ali, Shaden Shaar, Firoj Alam, Fabrizio Silvestri, Hamed Firooz, Preslav Nakov, Giovanni Da San Martino 訳抜け防止モード: dimitar dimitrov, bishr bin ali, shaden shaar, firoj alam, ファブリツィオ・シルヴェストリ、ハメド・フィロオズ、プレスラヴ・ナコフ、ジョヴァンニ・ダ・サン・マルティノ。
0.50
2021. DeIn Protecting propaganda techniques in memes.
2021. ミームにおけるプロパガンダのテクニックを守るデイン。
0.41
ceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACLIJCNLP ’21, pages 6603–6617.
Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby.
ルーカス・ベイヤー、アレクサンダー・コレスニコフ、ディルク・ヴァイセンボルン、シャオワ・ジ、トーマス・ウンターティナー、モスタファ・デハーニ、マティアス・ミンデラー、ゲオルク・ハイゴールド、シルヴァイン・ゲリー、ヤコブ・ウスコライト、ニール・ホルスビー。 訳抜け防止モード: ルーカス・ベイヤー、アレキサンダー・コレスニコフ、ディルク・ヴァイセンボルン、シャオワ・ジイ thomas unterthiner, mostafa dehghani, matthias minderer, georg heigold シルヴァイン・ゲリー、ヤコブ・ウスコライト、ニール・ホールスビー。
0.54
2021. An Image is Worth 16x16 Words: Transformers for Image In Proceedings of the 9th Recognition at scale.
2021. Image is Worth 16x16 Words: Transformers for Image In Proceedings of the 9th Recognition at scale。
0.44
International Conference on Learning Representations, ICLR ’21, Vienna, Austria.
international conference on learning representations, iclr ’21, vienna, austria (英語)
0.37
Rafael Ferreira, Rafael Dueire Lins, Steven J. Simske, Fred Freitas, and Marcelo Riss.
Rafael Ferreira、Rafael Dueire Lins、Steven J. Simske、Fred Freitas、Marcelo Riss。
0.38
2016. Assessing sentence similarity through lexical, syntactic and semantic analysis.
2016. 語彙・構文・意味分析による文類似性の評価
0.56
Computer Speech & Language, 39:1–28.
コンピュータ言語、39:1-28。
0.75
Raul Gomez, Jaume Gibert, Lluis Gomez, and Dimosthenis Karatzas.
2022. A survey on stance detection for mis- and disinformation identification.
2022. 不正および不正情報同定のための姿勢検出に関する調査
0.55
In Findings of NAACL 2022, Seattle, Washington, USA.
米国ワシントン州シアトルのnaacl 2022で発見された。
0.65
Kimmo Karkkainen and Jungseock Joo.
Kimmo KarkkainenとJungseock Joo。
0.39
2021. Fairface: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and MitIn Proceedings of the IEEE/CVF Winigation.
2021. Fairface: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and MitIn Proceedings of the IEEE/CVF Winigation。 訳抜け防止モード: 2021. fairface : face attribute dataset for balanced race, gender, ieee/cvfウィニゲーションのバイアス測定とマイチングの年齢。
0.54
ter Conference on Applications of Computer Vision, WACV ’21, pages 1548–1558.
ter conference on applications of computer vision, wacv ’21, pages 1548–1558。
2019. Supervised Multimodal Bitransformers for Classifying Images and Text.
2019. 画像とテキストの分類のための教師付きマルチモーダルバイコンバータ
0.52
In Proceedings of the NeurIPS Workshop on Visually Grounded Interaction and Language, ViGIL ’19, Vancouver, Canada.
In Proceedings of the NeurIPS Workshop on Visually Grounded Interaction and Language, ViGIL ’19, Canada, Vancouver 訳抜け防止モード: NeurIPS Workshop on Visually Grounded Interaction and Language に参加して バンクーバー、カナダ。
A Measurement Study of Genetic Testing Conversations on Reddit and 4chan.
Redditと4chanにおける遺伝子検査の会話の測定
0.86
In Proceedings of the Fourteenth International AAAI Conference on Web and Social Media, ICWSM ’20, pages 452–463, Atlanta, Georgia, USA.
第14回 aaai conference on web and social media の議事録 icwsm ’20, pages 452–463, atlanta, georgia, usa. (英語) 訳抜け防止モード: 第14回国際AAAI国際ウェブ・ソーシャルメディア会議に参加して ICWSM ’ 20 page 452–463, Atlanta, Georgia, USA.
0.79
Seunghyun Kim, Afsaneh Razi, Gianluca Stringhini, Pamela J. Wisniewski, and Munmun De Choudhury.
Sunghyun Kim、Afsaneh Razi、Gianluca Stringhini、Pamela J. Wisniewski、Munmun De Choudhury。
0.74
2021. A Human-Centered Systematic Literature Review of Cyberbullying Detection Algorithms.
2021. サイバーいじめ検出アルゴリズムの人間中心的体系的文献レビュー
0.59
Proceedings ACM Hum.
議事録 acm hum。
0.63
Comput. Interact.
Comput 相互作用する。
0.38
, 5(CSCW2):1–34.
5(CSCW2):1-34。
0.69
Van-Hoang Nguyen, Kazunari Sugiyama, Preslav Nakov, and Min-Yen Kan. 2020.
バン・ホアン・グエン、杉山一成、プレスラフ・ナコフ、民年鑑2020
0.37
FANG: Leveraging social context for fake news detection using graph representation.
FANG: グラフ表現を用いた偽ニュース検出にソーシャルコンテキストを活用する。
0.76
In Proceedings of the 29th ACM International Conference on Information and Knowledge Management, CIKM ’20, pages 1165–1174.
第29回 ACM International Conference on Information and Knowledge Management, CIKM'20, page 1165–1174 に参加して
0.86
Diederik P Kingma and Jimmy Ba.
ディーデリック・P・キングマとジミー・バ。
0.40
2015. Adam: A In ProceedMethod for Stochastic Optimization.
2015. Adam: 確率最適化のためのIn ProceedMethod。
0.61
ings of the 3rd International Conference on Learning Representations, ICLR ’15, San Diego, California, USA.
第3回学習表現国際会議(ICLR'15, San Diego, California, USA)に参加して
0.78
Benet Oriol, Cristian Canton-Ferrer, and Xavier Giró i Nieto.
ベネ・オリオール、クリスティアン・カントン=フェラー、ザビエル・ジロ・イ・ニート。
0.38
2019. Hate Speech in Pixels: Detection of Offensive Memes towards Automatic Moderation.
2019. ピクセル内のヘイトスピーチ:自動モデレーションに対する攻撃的ミームの検出。
0.55
In Proceedings of the NeurIPS 2019 Workshop on AI for Social Good, Vancouver, Canada.
カナダのバンクーバーで開催されたneurips 2019 workshop on ai for social goodの議事録。
0.73
Robin Kowalski, Gary Giumetti, Amber Schroeder, and Micah Lattanner.
Robin Kowalski、Gary Giumetti、Amber Schroeder、Micah Lattanner。
0.33
2014. Bullying in the Digital Age: A Critical Review and Meta-Analysis of Cyberbullying Research Among Youth.
2014. デジタル時代のいじめ : 若者の間でのサイバーいじめ研究の批判的レビューとメタ分析
0.60
Psychological bulletin, 140.
心理学誌、140頁。
0.55
Sumeet Kumar and Kathleen Carley.
Sumeet KumarとKathleen Carley。
0.37
2019. Tree LSTMs with Convolution Units to Predict Stance and Rumor Veracity in Social Media Conversations.
2019. ソーシャルメディア会話におけるStance and Rumor Veracity予測のための畳み込みユニット付きツリーLSTM
0.60
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, ACL ’19, pages 5047–5058, Florence, Italy.
2020. A Multimodal Framework for the Detection of Hateful Memes.
2020. ヘイトフルミームの検出のためのマルチモーダルフレームワーク。
0.50
arXiv:2012.12871.
arXiv:2012.12871。
0.49
Hamed Pirsiavash, Deva Ramanan, and Charless Fowlkes.
Hamed Pirsiavash, Deva Ramanan, Charless Fowlkes。
0.34
2009. Bilinear classifiers for visual recognition.
2009. 視覚認識のための双線形分類器
0.55
In Advances in Neural Information Processing Systems: Proceedings of the International Conference on Neural Information Processing Systems, volume 22, pages 1482–1490, Vancouver British Columbia Canada.
in advances in neural information processing systems: proceedings of the international conference on neural information processing systems, volume 22, pages 1482–1490, vancouver british columbia canada (英語) 訳抜け防止モード: ニューラル情報処理システムの進歩 : ニューラル情報処理システム国際会議の開催報告 第22巻、1482-1490頁、バンクーバー・ブリティッシュコロンビア・カナダ。
Association for Computational Linguistics. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al 2021.
計算言語学会会員。 アレク・ラドフォード、ジョン・ウォック・キム、クリス・ハラシー、アディティヤ・ラメシュ、ガブリエル・ゴー、サンディニ・アガルワル、ジリッシュ・サストリ、アマンダ・サッセル、パメラ・ミシュキン、ジャック・クラーク、アル・2021年。 訳抜け防止モード: 計算言語学会会員。 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell パメラ・ミシュキン、ジャック・クラーク、そして2021年。
0.63
Learning Transferable Visual Models From Natural Language Supervision.
自然言語による伝達可能な視覚モデル学習
0.74
In Proceedings of the 38th International Conference on Machine Learning, ICML ’21, pages 8748–8763.
第38回機械学習国際会議紀要 icml ’21, pages 8748-8763
0.53
Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee.
Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee
0.32
2019. ViLBERT: Pretraining TaskAgnostic Visiolinguistic Representations for VisionIn Proceedings of the Conand-Language Tasks.
2019. ViLBERT: VisionIn Proceedings of the Conand-Language Tasksにおけるタスク非依存型ビシオ言語表現の事前学習
0.49
ference on Neural Information Processing Systems, NeurIPS ’19, pages 13–23, Vancouver, Canada.
Neural Information Processing Systems, NeurIPS ’19, page 13–23, Vancouver, Canada。
0.40
Kunal Relia, Zhengyi Li, Stephanie H. Cook, and Rumi Chunara.
Kunal Relia、Zhengyi Li、Stephanie H. Cook、Rumi Chunara。
0.32
2019. Race, Ethnicity and National Origin-Based Discrimination in Social Media and Hate Crimes across 100 U.S. Cities.
2019. ソーシャルメディアとヘイトクライムにおける人種、民族性、民族起源に基づく差別。
0.49
Proceedings of the International AAAI Conference on Web and Social Media, 13(01):417–427.
International AAAI Conference on Web and Social Media, 13(01):417-427 に参加。
0.41
英語(論文から抽出)
日本語訳
スコア
Bárbara Gomes Ribeiro, Manoel Horta Ribeiro, Virgílio A. F. Almeida, and Wagner Meira Jr. 2021.
Bárbara Gomes Ribeiro、Manoel Horta Ribeiro、Virgílio A. F. Almeida、Wagner Meira Jr. 2021。
0.42
Follow the Money: Analyzing @slpng_giants_pt’s CoRR, Strategy to Combat Misinformation.
お金に従おう:@slpng_giants_ptのcorrを分析して、誤った情報と戦うための戦略。
0.55
abs/2105.07523.
abs/2105.07523。
0.45
Vlad Sandulescu.
Vlad Sandulescu所属。
0.88
Detecting Hateful Memes Using a Multimodal Deep Ensemble.
マルチモーダルディープアンサンブルを用いたヘイトフルミームの検出
0.54
arXiv:2012.13235.
arXiv:2012.13235。
0.24
2020. Morgan Klaus Scheuerman, Jialun Aaron Jiang, Casey Fiesler, and Jed R. Brubaker.
2020. Morgan Klaus Scheuerman, Jialun Aaron Jiang, Casey Fiesler, Jed R. Brubaker
0.40
2021. A Framework of Severity for Harmful Content Online.
2021. A Framework of Severity for Harmful Content Online (英語)
0.60
Proceedings ACM Hum.
議事録 acm hum。
0.63
-Comput. Interact.
-計算。 相互作用する。
0.38
, 5(CSCW2).
5(cscw2)であった。
0.54
Shaden Shaar, Firoj Alam, Giovanni Da San Martino, and Preslav Nakov.
シェーダン・シャール、フィロジ・アラム、ジョヴァンニ・ダ・サン・マルティーノ、プレスラヴ・ナコフ。
0.35
2022. The role of context in detecting previously fact-checked claims.
2022. 事実確認されたクレームの検出におけるコンテキストの役割。
0.50
In Findings of the Association for Computational Linguistics: NAACL-HLT 2022, NAACL-HLT ’22, Seattle, Washington, USA.
In Proceedings of the Second Workshop on Trolling, Aggression and Cyberbullying, pages 32–41, Marseille, France.
第2回トロリング、攻撃、サイバーいじめに関するワークショップの議事録、32-41ページ、マルセイユ、フランス。 訳抜け防止モード: The Second Workshop on Trolling, Aggression and Cyberbullying に参加して 32-41頁、フランス、マルセイユ。
0.73
European Language Resources Assoc.
ヨーロッパの言語資源。
0.67
(ELRA). Yuping Wang, Fatemeh Tahmasbi, Jeremy Blackburn, Barry Bradlyn, Emiliano De Cristofaro, David Magerman, Savvas Zannettou, and Gianluca Stringhini.
(elra)。 Yuping Wang, Fatemeh Tahmasbi, Jeremy Blackburn, Barry Bradlyn, Emiliano De Cristofaro, David Magerman, Savvas Zannettou, Gianluca Stringhini
0.44
2021. Understanding the Use of Fauxtography on Social Media.
2021. ソーシャルメディア上でのfauxtographyの利用を理解すること。
0.52
Proceedings of the International AAAI Conference on Web and Social Media, 15(1):776–786.
International AAAI Conference on Web and Social Media, 15(1):776-786 に参加。
0.87
Liang Wu and Huan Liu.
liang wuとhuan liuだ。
0.61
2018. Tracing Fake-News Footprints: Characterizing Social Media Messages In Proceedings of the by How They Propagate.
Eleventh ACM International Conference on Web Search and Data Mining, WSDM ’18, pages 637– 645, Marina Del Rey, CA, USA.
第11回 acm international conference on web search and data mining, wsdm ’18, pages 637–645, marina del rey, ca, usa (英語) 訳抜け防止モード: 第11回 ACM International Conference on Web Search and Data Mining, WSDM' 18 637 – 645, Marina Del Rey, CA, USA. (英語)
0.88
Association for Computing Machinery.
アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。
0.36
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le.
Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Russ R Salakhutdinov、Quoc V Le。
0.33
2019. XLNet: Generalized Autoregressive Pretraining for In Advances in NeuLanguage Understanding.
Kaimin Zhou, Chang Shu, Binyang Li, and Jey Han In ProceedLau.
周海民、チャン・シュー、李備陽、ハン・イン・プログラウ。
0.39
2019. Early Rumour Detection.
2019. 初期のRumour Detection。
0.59
ings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACLHLT ’19, pages 1614–1623, Minneapolis, Minnesota, USA.
ings of the 2019 conference of the north american chapter of the association for computational linguistics: human language technologies, naaclhlt ’19, pages 1614–1623, minneapolis, minnesota, usa (英語) 訳抜け防止モード: 計算言語学会北米支部2019年大会報告 : ヒューマン・ランゲージ・テクノロジー NAACLHLT ’19 page 1614–1623, Minneapolis, Minnesota, USA.
0.54
Association for Computational Linguistics. Yi Zhou, Zhenhao Chen, and Huiyuan Yang.
計算言語学会会員。 Yi Zhou, Zhenhao Chen, Huiyuan Yang。
0.43
2021. Multimodal Learning for Hateful Memes DetecIn Proceedings of the 2021 IEEE Internation.
2021. 2021年IEEEインターネイションにおけるHateful Memes DetecInのマルチモーダル学習
International Conference on Multimedia & Expo Workshops, ICMEW ’21, page 1-6, Shenzhen, China
0.41
英語(論文から抽出)
日本語訳
スコア
Appendix B Ablation Study
付録 bアブレーション研究
0.62
A Implementation Details and Hyper-parameter Values
実装概要と課題 ハイパーパラメータ値
0.61
We trained all our models using PyTorch on NVIDIA Tesla V100 GPU, with 32 GB dedicated memory, CUDA-11.2 and cuDNN-8.1.1 For the unimodal models, we iminstalled.
NVIDIA Tesla V100 GPU上でPyTorchを使用して、32GBの専用メモリ、CUDA-11.2、cuDNN-8.1.1をトレーニングしました。
0.67
ported all the pre-trained weights from the TORCHVISION.MODELS8, a sub-package of the PyTorch framework.
TORCHVISION.MODELS8はPyTorchフレームワークのサブパッケージである。
0.43
We initialized the remaining weights randomly using a zero-mean Gaussian distribution with a standard deviation of 0.02.
標準偏差0.02の零平均ガウス分布を用いて, 残重みをランダムに初期化した。
0.76
We train DISARM in a setup considering only harmful class data from Harm-P (Pramanick et al , 2021b).
harm-p(pramanick et al , 2021b)の有害なクラスデータのみを考慮し, 武装解除訓練を行った。
0.60
We extended it by manually annotating for harmful targets, followed by including non-harmful examples using automated entity extraction (textual and visual) strategies for training/validation splits and manual annotation (for both harmful and nonharmful) for the test split.
When training our models and exploring various values for the different model hyperparameters, we experimented with using the Adam optimizer (Kingma and Ba, 2015) with a learning rate of 1e−4, a weight decay of 1e−5, and a Binary Cross-Entropy (BCE) loss as the objective function.
モデルのトレーニングや,異なるモデルハイパーパラメータのさまざまな値の探索では,AdamOptimator (Kingma and Ba, 2015) を用いて1e−4の学習率,1e−5の重み崩壊,BCE損失を目標関数として実験を行った。
0.80
We extensively fine-tuned our experimental setups based upon different architectural requirements to select the best hyper-parameter values.
In this section, we present some ablation studies for sub-modules of DISARM based on CE, EH, CT, and CI, examined in isolation and in combinations, and finally for DISARM using CMM.
As observed in the comparisons made with the other baseline systems for the Test Set A in Table 2, the overall range of the F1 scores is relatively higher with the lowest value being 0.66 for XLNet (text-only) model.
The results for unimodal systems, as can be observed in Table 5, is satisfactory with values of 0.74, 0.73, and 0.77 for CE EH, and CI unimodal systems, respectively.
表5で見られるような単調系の結果は、CE EHの0.74、0.73、0.77、CI単調系の0.77と良好である。 訳抜け防止モード: 表5に示すように,ユニモーダルシステムの結果について考察する。 ce eh と ci のユニモーダル系はそれぞれ 0.74, 0.73, 0.77 の値で満足できる。
0.66
For multimodal systems, we can observe distinct lead for the MMLRBP-based fusion strategy, for both CE and EH systems over the concatenation-based approach, except for EH’s recall drop by 7%.
Finally DISARM yields the best overall F1 score of 0.78.
最終的に DisARM は F1 のスコアが 0.78 である。
0.61
B.2 Test Set B
B.2 テストセットB
0.54
With context not having any harmfulness cues for a given meme when considered in isolation, the unimodal CE module performs the worst with 0.48 F1 score, and 0.07 recall for the harmful class, in the open-ended setting of Test Set B. In contrast, EH yields an impressive F1 score of 0.55, and a harmful recall of 0.41.
This relative gain of 7% in terms of F1 score could be due to the presence of explicit harmfulness cues.
F1スコアの相対的な7%の上昇は、明らかな有害な手がかりの存在による可能性がある。
0.65
The complementary effect of considering contextual information can be inferred from the joint modeling of CE and EH, to obtained CT, that enhances the F1 score and the harmful recall by 2% and 3%, respectively (see Table 5).
Table 5: Ablation results for DISARM and its variants for Test Sets A, B, and C.
表5: DisARM とそのテストセット A, B, C の変種に対するアブレーション結果。
0.71
B.3 Test Set C As observed in the previous scenario, the unimodal models for CE yield a low F1 score of 0.48 and the worst harmful recall value of 0.06.
b.3 前回のシナリオで見られたテスト集合 c では、ce のユニモーダルモデルは、低い f1 スコア 0.48 と最悪の有害なリコール値 0.06 を生成する。
0.59
Much better performance is observed for unimodal setups including EH, and its joint modelling with CE with improved F1 scores of 0.56 and 0.58, respectively, along with the harmful recall score of 0.56 and 0.57, respectively.
CI based unimodal evaluation again yields a moderate F1 score of 0.53 (see Table 5), along with a poor harmful recall of 0.19, which shows its inadequacy to model harmful targeting on its own.
For multimodal setups, the joint modelling of CE and CI benefits from MMLRBP based fusion, yielding a gain of 7% and 13% in terms of F1 score and harmful recall, respectively.
The experimental results here are for comparison and analysis of the optimal set of design and baseline choices.
実験結果は,最適設計集合と基準選択集合の比較と解析を目的としている。
0.84
We should note that we performed extensive experiments as part of our preliminary investigation, with different contextual modelling strategies, attention mechanisms, modelling choices, etc., to reach a conclusive architectural configuration that show promise for addressing the task of target detection in harmful memes.
C Error Analysis It is evident from the results shown in Tables 2 and 3 that DISARM still has shortcomings.
C エラー解析 表 2 と 3 で示されている結果から、 DisARM にはまだ欠点があることは明らかである。
0.69
Examples like the one shown in Fig 6 are seemingly harmless, both textually and visually, but imply serious harm to a person of color in an implicit way.
(a) L-AT (d) ViLBERT Target Candidate→person of color Context→During the evening of the VP debates, Joe Biden settled down on his soft couch with a glass of warm milk to watch this.
(a)L-AT (d) vilbert target candidate→person of color context→d the evening of the vp debatesの中で、joe bidenは温かいミルクを飲みながらソファーに落ち着いた。
0.54
V-AT- Figure 6: Comparison of attention maps for miclassification between DISARM [
V-AT 図6: 武装解除のためのアテンションマップの比較 [in japanese]
0.42
(a), (b) & (c)] and ViLBERT [
(a) (b)& (c) と ViLBERT [
0.45
(d)] using BertViz and Grad-CAM.
(d) BertViz と Grad-CAM を使用する。
0.84
This kind of complexity can be challenging to model without providing additional context about the meme like people of colour face racial discrimination all over the world.
(e) International threat Figure 7: Examples of memes depicting different types (a)–(e) of harmful targeting.
a)国際的脅威 図7: 有害な標的の異なるタイプ(a)–(e)を描いたミームの例。
0.78
Even though the context obtained for this meme pertains to its content (see Fig 6), it does not relate to global racial prejudice, which is key to ascertaining it as a harmfully targeting meme.
This error can be inferred clearly from the embeddedharmfulness, contextualised-visua ls, and the visuals being attended by DISARM as depicted in Fig. 6a, Fig 6b, and Fig 6c, respectively.
On the other hand, as shown in the visual attention plot for ViLBERT in Fig 6d, the field of view that is being attended encompasses the visuals of Kamala Harris, who is the person of colour that i sbeing primarily targeted by the meme.
Besides the distinct attention on the primary target-candidate within the meme, ViLBERT could have leveraged the pre-training it received from Conceptual Captions (CC) (Sharma et al , 2018), a dataset known for its diverse coverage of complex textual descriptions.
ミーム内の主要なターゲット候補に対する明確な注意に加えて、ViLBERTは複雑なテキスト記述の多様なカバレッジで知られるデータセットであるConceptual Captions (CC) (Sharma et al , 2018)から受け取った事前訓練を活用することができた。
0.72
This essentially highlights the importance of making use of multimodal pre-training using the dataset that is not as generic as MS COCO (Lin et al , 2014), but facilitates modelling of the complex real-world multimodal information, especially for tasks related to memes.
これは本質的にMS COCO(Lin et al , 2014)ほど一般的ではないが、特にミームに関連するタスクにおいて、複雑な実世界のマルチモーダル情報のモデリングを容易にするデータセットを使用したマルチモーダル事前トレーニングを使用することの重要性を強調している。
0.67
D Annotation Guidelines
D アノテーションガイドライン
0.73
Before discussing some details about the annotation process, revisiting the definition of harmful memes would set the pretext towards consideration of harmful targeting and non-harmful referencing.
According to Pramanick et al (2021b), a harm can be expressed as an abuse, an offence, a disrespect, an insult, or an insinuation of a targeted entity or any socio-cultural or political ideology, belief, principle, or doctrine associated with that entity.
pramanick et al (2021b) によれば、危害は、その団体に関連する社会文化的または政治的イデオロギー、信念、原則、または教義に対する虐待、犯罪、軽視、侮辱、または否定として表現できる。
0.61
The harm can also be in the form of a more subtle attack such as mocking or ridiculing a person or an idea.
この危害は、人やアイデアをあざ笑ったり笑ったりするような、より微妙な攻撃の形でも起こり得る。
0.62
Another common understanding9,10,11 about the harmful content is that it could be anything online that causes distress.
This makes it significantly challenging to characterize and hence to study it via the computational lens.
これにより、特徴付けと計算レンズによる研究が著しく困難になる。
0.77
Based on a survey of 52 participants, Scheuerman et al (2021) defines online harm to be any violating content that results in any (or a combination) of the following four categories:
52人の参加者による調査に基づいて、scheuerman et al (2021) はオンライン被害を、以下の4つのカテゴリのいずれか(または組み合わせ)に違反するコンテンツであると定義している。
0.72
(i) physical harm, (ii) emotional harm,
(i)身体的危害 (ii)感情的な危害
0.54
(iii) relational harm, and
(iii)関係性害、及び
0.88
(iv) financial harm.
(iv)経済的被害。
0.35
With this in mind, we define two types of referencing that we have investigated in our work within the context of internet memes:
The understanding about harmful referencing (targeting) in memes, can be sourced back to the definition of harmful memes by Pramanick et al (2021b), wherein a social entity is subjected to some form of ill-treatment such as mental abuse, psycho-physiological injury, proprietary damage, emotional disturbance, or public image damage, based on their background (bias, social background, educational background, etc.) by a meme author.
Not-harmful. Non-harmful in memes is any benign mention (or depiction) of a social entity via humour, limerick, harmless pun or any content that does not cause distress.
害はない。 非害なミーム(英: non-harmful in memes)とは、ユーモア、リムリック、無害なパント、または苦痛を起こさないあらゆる内容を通じて、社会的実体の良心的な言及(または描写)である。 訳抜け防止モード: 害はない。 ミームにおいて有害なものは、ユーモアを通じて社会的な実体の良性的な言及(または描写)である。 limerick、harmless pun、あるいは苦悩を起こさないコンテンツ。
0.52
Any reference that is not harmful falls under this category.
Here are some: 1. A prominent way of harmfully targeting an entity in a meme is by leveraging sarcastically harmful analogies, framed via either textual or visual instruments (see Fig 7a).
5. Any meme that implies an explicit/implicit threat to an individual, a community, a national or an international entity is harmful (see Fig 7d and 7e).
6. Whenever there is any ambiguity regarding the harmfulness of any reference being made, we requested the annotators to proceed following the best of their understanding.
E Ext-Harm-P Characteristics Below, we perform some analysis of the lexical content of the length of the meme text.
E Ext-Harm-P の特徴を以下に示す。
0.20
E.1 Lexical Analysis Interestingly, a significant number of memes are disseminated making references to popular individuals such as Joe Biden, Donald Trump, etc., as can be observed for individual sub-categories (for both harmful and non-harmful memes) in Table 6.
We can see in Table 6 that for harmful– organization, the top-5 harmfully targeted organizations include the top-2 leading political organizations in the USA (the Democratic Party and the Republican Party), which are of significant political relevance, followed by the Libertarian Party, a media outlet (CNN), and finally the generic government.
At the same time, non-harmfully referenced organizations includes the Biden camp and the Trump administration, which are mostly leveraged for harmfully targeting (or otherwise) the associated public figure.
Finally, communities such as Mexicans, Black, Muslim, Islam, and Russian are often immensely prejudiced against online, and thus also in our meme dataset.
At the same time, non-harmfully targeted communities such as the Trump supporters and the African Americans are not targeted as often as the aforementioned ones, as we can see in Table 6.
The above analysis of the lexical content of the memes in our datasets largely emphasizes the inherent bias that multimodal content such as memes can exhibit, which in turn can have direct influence on the efficacy of machine/deep learningbased systems for detecting the entities targeted by harmful memes.
The reasons for this bias are mostly linked to societal behaviour at the organic level, and the limitations posed by current techniques to process such data.
The mutual exclusion for harmful vs. non-harmful categories for community shows the inherent bias that could pose a challenge, even for the best multi-modal deep neural systems.
At the same time, the significant overlap observed in Table 6 for the enlisted entities, between harmful and not-harmful individuals, highlights the need for sophisticated multi-modal systems that can effectively reason towards making a complex decision like detecting harmful targeting within memes, rather than exploit the biases towards certain entities in the training data.
Trump and the Republic Party have memetext length distributions similar to the non-harmful category: skewing left, but gradually decreasing towards the right.
This suggests a varying content generation pattern amongst meme creators (see Fig 8).
これはミームクリエーターの間でさまざまなコンテンツ生成パターンを示唆している(図8参照)。
0.65
The meme-text length distribution for Biden closely approximates a normal distribution with a low standard deviation.
バイデンのミームテキスト長分布は、標準偏差が低い正規分布に密接に近似する。
0.72
Both categories would pre-dominantly entail creating memes with shorter text lengths, possibly due to the popularity of Biden amongst humorous content creators.
At the same time, the amount of harm intended towards the Black community is observed to be significantly higher, as compared to moderately distributed non-harmful memes depicted by the corresponding meme-text length distribution in Fig 8.