論文の概要、ライセンス

# (参考訳) DisARM: 有害なミームを狙った被害者を検知 [全文訳有]

DISARM: Detecting the Victims Targeted by Harmful Memes ( http://arxiv.org/abs/2205.05738v1 )

ライセンス: CC BY 4.0
Shivam Sharma, Md. Shad Akhtar, Preslav Nakov, Tanmoy Chakraborty(参考訳) インターネットミームは、ウェブ上でのコミュニケーション手段としてますます人気が高まっている。 通常、ユーモアを誘発することを目的としているが、憎しみ、荒らし、サイバーいじめ、特定の個人、コミュニティ、社会を政治的、社会文化的、心理的な理由から標的にするためにますます使われてきた。 これまでの研究は有害で憎悪的で攻撃的なミームの発見に重点を置いてきたが、攻撃対象を特定することは依然として困難で未調査の分野である。 ここではこのギャップを埋めることを目指しています。 特に、対象者の名前、組織、コミュニティ(ies)など、各ミームに被害者をアノテートするデータセットを作成します。 次に、名前付きエンティティ認識と人物識別を用いて、ミームが参照しているすべてのエンティティを検知するフレームワークであるdisARM(hARmful Memesが対象とするvIctimSの検出)を提案し、ミームがこれらのエンティティを害するかどうかを分類するために、新しいコンテキスト化されたマルチモーダルディープニューラルネットワークを組み込む。 3つのテストの設定でいくつかの系統的な実験を行いました。 (a)すべて訓練中に見られる。 (b)訓練上の有害な標的とは見なされず、 (c)訓練では全く見られなかった。 評価結果から,disARMは10の単一モード・マルチモーダルシステムより有意に優れていた。 最後に、 DisARM は解釈可能であり、相対的に一般化可能であり、有害なターゲット識別に対する相対誤差を複数の強力なマルチモーダルライバルに対して最大9ポイントまで低減できることを示す。

Internet memes have emerged as an increasingly popular means of communication on the Web. Although typically intended to elicit humour, they have been increasingly used to spread hatred, trolling, and cyberbullying, as well as to target specific individuals, communities, or society on political, socio-cultural, and psychological grounds. While previous work has focused on detecting harmful, hateful, and offensive memes, identifying whom they attack remains a challenging and underexplored area. Here we aim to bridge this gap. In particular, we create a dataset where we annotate each meme with its victim(s) such as the name of the targeted person(s), organization(s), and community(ies). We then propose DISARM (Detecting vIctimS targeted by hARmful Memes), a framework that uses named entity recognition and person identification to detect all entities a meme is referring to, and then, incorporates a novel contextualized multimodal deep neural network to classify whether the meme intends to harm these entities. We perform several systematic experiments on three test setups, corresponding to entities that are (a) all seen while training, (b) not seen as a harmful target on training, and (c) not seen at all on training. The evaluation results show that DISARM significantly outperforms ten unimodal and multimodal systems. Finally, we show that DISARM is interpretable and comparatively more generalizable and that it can reduce the relative error rate for harmful target identification by up to 9 points absolute over several strong multimodal rivals.
公開日: Wed, 11 May 2022 19:14:26 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
DISARM: Detecting the Victims Targeted by Harmful Memes DisARM: 有害なミームを狙った被害者を検知 0.67
Shivam Sharma1,3, Md. Shivam Sharma1,3, Md。 0.37
Shad Akhtar1, Preslav Nakov2, Tanmoy Chakraborty1 Shad Akhtar1, Preslav Nakov2, Tanmoy Chakraborty1 0.44
1Indraprastha Institute of Information Technology - Delhi, India 1Indraprastha Institute of Information Technology - インド・デリー 0.83
2Qatar Computing Research Institute, HBKU, Doha, Qatar 2Qatar Computing Research Institute, HBKU, Doha, Qatar 0.46
3Wipro AI Labs, India インドの3Wipro AI Labs 0.90
{shivams, shad.akhtar, tanmoy}@iiitd.ac.in shivams, shad.akhtar, tanmoy}@iiitd.ac.in 0.37
pnakov@hbku.edu.qa pnakov@hbku.edu.qa 0.29
Abstract 2 2 0 2 概要 2 2 0 2 0.43
y a M 1 1 y a m 1 1 である。 0.65
] L C . s c [ 1 v 8 3 7 5 0 ]LC。 sc [ 1 v 8 3 7 5 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Internet memes have emerged as an increasingly popular means of communication on the Web. インターネットミームは、ウェブ上でのコミュニケーション手段としてますます人気が高まっている。 0.69
Although typically intended to elicit humour, they have been increasingly used to spread hatred, trolling, and cyberbullying, as well as to target specific individuals, communities, or society on political, socio-cultural, and psychological grounds. 通常、ユーモアを誘発することを目的としているが、憎しみ、荒らし、サイバーいじめ、特定の個人、コミュニティ、社会を政治的、社会文化的、心理的な理由から標的にするためにますます使われてきた。 0.61
While previous work has focused on detecting harmful, hateful, and offensive memes, identifying whom they attack remains a challenging and underexplored area. これまでの研究は有害で憎悪的で攻撃的なミームの発見に重点を置いてきたが、攻撃対象を特定することは依然として困難で未調査の分野である。
訳抜け防止モード: これまでの研究は有害、憎悪、攻撃的なミームの検出に重点を置いてきた。 攻撃者を特定し いまだに困難な地域です
0.51
Here we aim to bridge this gap. ここではこのギャップを埋めることを目指しています。 0.47
In particular, we create a dataset where we annotate each meme with its victim(s) such as the name of the targeted person(s), organization(s), and community(ies). 特に、対象者の名前、組織、コミュニティ(ies)など、各ミームに被害者をアノテートするデータセットを作成します。
訳抜け防止モード: 特に、ターゲットの人の名前など、各ミームに被害者()をアノテートするデータセットを作成します。 organization(s ) と community(ies )。
0.53
We then propose DISARM (Detecting vIctimS targeted by hARmful Memes), a framework that uses named entity recognition and person identification to detect all entities a meme is referring to, and then, incorporates a novel contextualized multimodal deep neural network to classify whether the meme intends to harm these entities. 次に、名前付きエンティティ認識と人物識別を用いて、ミームが参照しているすべてのエンティティを検知するフレームワークであるdisARM(hARmful Memesが対象とするvIctimSの検出)を提案し、ミームがこれらのエンティティを害するかどうかを分類するために、新しいコンテキスト化されたマルチモーダルディープニューラルネットワークを組み込む。 0.66
We perform several systematic experiments on three test setups, corresponding to entities that are 3つのテストの設定でいくつかの系統的な実験を行いました。 0.64
(a) all seen while training, (a)すべて訓練中に見られる。 0.74
(b) not seen as a harmful target on training, and (b)訓練上の有害な標的とは見なされず、 0.78
(c) not seen at all on training. (c)訓練では全く見られなかった。 0.79
The evaluation results show that DISARM significantly outperforms ten unimodal and multimodal systems. 評価結果から,disARMは10の単一モード・マルチモーダルシステムより有意に優れていた。 0.46
Finally, we show that DISARM is interpretable and comparatively more generalizable and that it can reduce the relative error rate for harmful target identification by up to 9 points absolute over several strong multimodal rivals. 最後に、 DisARM は解釈可能であり、相対的に一般化可能であり、有害なターゲット識別に対する相対誤差を複数の強力なマルチモーダルライバルに対して最大9ポイントまで低減できることを示す。 0.69
Introduction 1 Social media offer the freedom and the means to express deeply ingrained sentiments, which can be done using diverse and multimodal content such as memes. はじめに 1 ソーシャルメディアは、ミームのような多様で多彩なコンテンツを使って、深く浸透した感情を表現する自由と手段を提供する。 0.64
Besides being popularly used to express benign humour, Internet memes have also been misused to incite extreme reactions, hatred, and to spread disinformation on a massive scale. ユーモアの表現に広く使われているだけでなく、インターネットミームは極端な反応、憎しみ、偽情報を大規模に広めるためにも誤用されている。 0.67
(a) Harmful reference (b) Harmless reference (a)有害な参照 (b)無害な参照 0.82
Figure 1: (a) A meme that targets Justin Trudeau in a harmful way, with a communal angle. 図1 (a)ジャスティン・トルドーを害な方法で、共同の角度で狙うミーム。 0.53
(b) A non-harmful mention of Justin Trudeau, as a benign humor. (b)無害なユーモアとして、ジャスティン・トルドーに不名誉な言及。 0.61
Numerous recent efforts have attempted to characterize harmfulness (Pramanick et al , 2021b), hate speech (Kiela et al , 2020), and offensiveness (Suryawanshi et al , 2020) within memes. 近年では、有害性(Pramanick et al , 2021b)、ヘイトスピーチ(Kiela et al , 2020)、攻撃性(Suryawanshi et al , 2020)をミーム内で特徴づけようとしている。 0.77
Most of these efforts have been directed towards detecting malicious influence within memes, but there has been little work on identifying whom the memes target. これらの取り組みの多くは、ミーム内の悪意のある影響を検出することを目的としているが、ミームが標的とするものを特定することはほとんどない。 0.49
Besides detecting whether a meme is harmful, it is often important to know whether the meme contains an entity that is particularly targeted in a harmful way. ミームが有害かどうかを検知するだけでなく、特に有害な方法で標的となるエンティティを含むかどうかを知ることが重要である。 0.64
This is the task we are addressing here: detecting the entities that a meme targets in a harmful way. ミームがターゲットとするエンティティを有害な方法で検出することです。
訳抜け防止モード: これが私たちが取り組んでいる課題です。 ミームが標的とする物質を 有害な方法で検出することです
0.63
Harmful targeting in memes is often done using satire, sarcasm, or humour in an explicit or an implicit way, aiming at attacking an individual, an organization, a community, or society in general. ミームにおける有害なターゲティングは、しばしば風刺、皮肉またはユーモアを用いて、個人、組織、コミュニティまたは社会全般を攻撃することを目的として、明示的または暗黙的な方法で行われる。 0.63
For example, Fig 1a depicts Justin Trudeau, the Prime Minister of Canada, as communally biased against Canadians, while favoring alleged killings by Muslims, whereas Fig 1b shows an arguably benign meme of the same person expressing subtle humour. 例えば、フィギュア1aはカナダ首相ジャスティン・トルドーをカナダ人に共通の偏見を抱き、ムスリムによる殺人を主張する一方で、フィギュア1bは微妙なユーモアを表現している同一人物の明らかに良心的なミームを示している。 0.70
Essentially, the meme in Fig 1a harmfully targets Justin Trudeau directly, while causing indirect harm to Canadians and to Muslims as well. 本質的には、第1図のミームはジャスティン・トルドーを直接標的にしており、カナダ人やムスリムにも間接的に害を与えている。 0.56
Note that in many cases interpreting memes and their harmful intent requires some additional background knowledge for the meme to be understood properly. 多くの場合、ミームの解釈とその有害な意図は、ミームを適切に理解するためにいくつかの追加の背景知識を必要とする。 0.55
英語(論文から抽出)日本語訳スコア
Hence, an automated system for detecting the entities targeted by harmful memes faces two major challenges: したがって、有害なミームを標的とした物体の自動検出システムは、2つの大きな課題に直面している。 0.53
(i) insufficient background context, (i)背景文脈が不十分である。 0.59
(ii) complexity posed by the implicit harm, and (ii)暗黙の害によって生じる複雑さ 0.77
(iii) keyword bias in a supervised setting. (iii)教師付き設定におけるキーワードバイアス。 0.70
To address these challenges, here we aim to address the task of harmful target detection in memes by formulating it as an open-ended task, where a meme can target an entity not seen on training. これらの課題に対処するため,我々は,ミームにおける有害なターゲット検出の課題を,トレーニング中に見ないエンティティを対象とするオープンエンドタスクとして定式化することで解決する。 0.71
An end-to-end solution requires エンドツーエンドのソリューションが必要 0.59
(i) identifying the entities referred to in the meme, and (i)ミームでいう実体を識別すること、及び 0.56
(ii) deciding whether each of these entities is being targeted in a harmful way. (ii)各団体が有害な方法で標的にされているかどうかを決定すること。 0.65
To address these two tasks, we perform systematic contextualization of the multimodal information presented within the meme by first performing intra-modal fusion between an external knowledge-based contextualized-entit y and the textually-embedded harmfulness in the meme, which is followed by cross-modal fusion of the contextualized textual and visual modalities using low-rank bi-linear pooling, resulting in an enriched multimodal representation. これら2つの課題に対処するために、まず外部知識に基づく文脈化エンテンシティとミームのテキスト埋め込み有害性との間のモーダル内融合を行い、次いで低ランク双線形プールを用いてコンテキスト化されたテキストおよび視覚的モダリティの相互融合を行い、よりリッチなマルチモーダル表現を実現する。 0.68
We evaluate our model using three-level stress-testing to better assess its generalizability to unseen targets. 本研究では,3レベルストレステストによるモデルの評価を行い,その一般化性を評価する。 0.53
We create a dataset, and we propose an experimental setup and a model to address the aforementioned requirements, making the following contributions:1: データセットを作成し、上記の要件に対処するための実験的なセットアップとモデルを提案し、以下のコントリビューションを作成します。 0.66
1. We introduce the novel task of detecting the 1. 検出の新しい課題を紹介する。 0.63
entities targeted by harmful memes. 有害なミームをターゲットとする団体。 0.45
2. We create a new dataset for this new task, Ext-Harm-P, by extending Harm-P (Pramanick et al , 2021b) via re-annotating each harmful meme with the entity it targets. 2) この新たなタスクであるExt-Harm-Pのための新しいデータセットを作成し、Harm-P(Pramanick et al , 2021b)をターゲットとするエンティティで各有害ミームを再注釈することで拡張する。 0.68
3. We propose DISARM, a novel multimodal neural architecture that uses an expressive contextualized representation for detecting harmful targeting in memes. 本研究では,表現的文脈表現を用いて,有害な標的を検出する新しいマルチモーダルニューラルネットワークであるdisARMを提案する。 0.61
4. We empirically showcase that DISARM outperforms ten unimodal and multimodal models by several points absolute in terms of macro-F1 scores in three different evaluation setups. 4) DISARMは3つの異なる評価設定においてマクロF1スコアの点で絶対的に10の単調モデルとマルチモーダルモデルより優れていることを実証的に示す。 0.63
5. Finally, we discuss DISARM’s generalizabil- 5. 最後に、disarmの汎用性について論じる。 0.48
ity and interpretability. 1The source code and the dataset can be found here 性と解釈性。 1 ソースコードとデータセットはここにある。 0.71
https://github.com/L CS2-IIITD/DISARM. https://github.com/L CS2-IIITD/DISARM 0.19
2 Related Work Misconduct on Social Media. 2 関連作業 ソーシャルメディアの過ち。 0.68
The rise in misconduct on social media is a prominent research topic. ソーシャルメディアにおける不正行為の増加は、顕著な研究トピックである。 0.68
Some forms of online misconduct include rumours (Zhou et al , 2019), fake news (Aldwairi and Alwahedi, 2018; Shu et al , 2017; Nguyen et al , 2020), misinformation (Ribeiro et al , 2021; Shaar et al , 2022), disinformation (Alam et al , 2021; Hardalov et al , 2022), hate speech (MacAvaney et al , 2019; Zhang and Luo, 2019; Zampieri et al , 2020), trolling (Cook et al , 2018), and cyber-bullying (Kowalski et al , 2014; Kim et al , 2021). ネット上の不正行為には、噂(Zhou et al , 2019)、偽ニュース(Aldwairi and Alwahedi, 2018; Shu et al , 2017; Nguyen et al , 2020)、誤情報(Ribeiro et al , 2021; Shaar et al , 2022)、偽情報(Alam et al , 2021; Hardalov et al , 2022)、ヘイトスピーチ(MacAvaney et al , 2019)、Zhang and Luo, 2019; Zampieri et al , 2020)、トロリング(Cook et al , 2018; Kowalski et al , 2014; Kim et al , 2021)などがある。 0.82
Some notable work in this direction includes stance (Graells-Garrido et al , 2020) and rumour veracity prediction, in a multi-task learning framework (Kumar and Carley, 2019), wherein the authors proposed a Tree LSTM for characterizing online conversations. この方向の注目すべき業績には、マルチタスク学習フレームワーク(Kumar and Carley, 2019)におけるスタンス(Graells-Garrido et al , 2020)や噂の正確性予測などがあり、著者らはオンライン会話を特徴づけるためのTree LSTMを提案した。 0.65
Wu and Liu (2018) explored user and social network representations for classifying a message as genuine vs. fake. Wu and Liu (2018)は、メッセージの真偽を分類するためのユーザーとソーシャルネットワークの表現を調査した。 0.82
Cheng et al (2017) studied user’s mood along with the online contextual discourse and demonstrated that it helps for trolling behaviour prediction on top of user’s behavioural history. Cheng et al (2017)は、オンラインの文脈談話と共にユーザーの気分を研究し、ユーザーの行動履歴の上に行動予測をトロルさせるのに役立つことを示した。 0.75
Relia et al (2019) studied the synergy between discrimination based on race, ethnicity, and national origin in the physical and in the virtual space. Relia et al (2019) は人種、民族、そして物理的および仮想空間における民族的起源に基づく差別のシナジーを研究した。 0.70
Studies Focusing on Memes. ミームに焦点をあてた研究。 0.38
Recent efforts have shown interest in incorporating additional contextual information for meme analysis. 近年の取り組みは、ミーム分析のための追加の文脈情報の導入に関心を示している。 0.48
Shang et al (2021a) proposed knowledge-enriched graph neural networks that use common-sense knowledge for offensive memes detection. Shang et al (2021a) は、攻撃的なミーム検出に常識知識を使用する知識豊富なグラフニューラルネットワークを提案した。 0.60
Pramanick et al (2021a) focused on detecting COVID-19related harmful memes and highlighted the challenge posed by the inherent biases within the existing multimodal systems. pramanick et al (2021a)は、covid-19関連の有害なミームの検出に焦点を当て、既存のマルチモーダルシステム内の固有のバイアスによって引き起こされる課題を強調した。
訳抜け防止モード: pramanickら(2021a)が焦点を絞ったcovid-19関連有害ミームの検出 そして、既存のマルチモーダルシステム内の固有のバイアスによって引き起こされる課題を強調した。
0.57
Pramanick et al (2021b) released another dataset focusing on US Politics and proposed a multimodal framework for harmful meme detection. pramanick et al (2021b)はアメリカ政治に焦点を当てたデータセットをリリースし、有害なミーム検出のためのマルチモーダルフレームワークを提案した。 0.59
The Hateful Memes detection challenge by Facebook (Kiela et al , 2020) introduced the task of classifying a meme as hateful vs. non-hateful. facebookによるヘイトフルミーム検出チャレンジ(kiela et al, 2020)は、ミームをヘイトフル対非ヘイトフルに分類するタスクを導入した。
訳抜け防止モード: Facebook(Kiela et al, 2020)によるHateful Memes検出チャレンジでは、タスクが導入された。 ミームを憎しみと非憎しみと分類する。
0.72
Different approaches such as feature augmentation, attention mechanism, and multimodal loss re-weighting were attempted (Das et al , 2020; Sandulescu, 2020; Zhou et al , 2021; Lippe et al , 2020) as part of this task. この課題の一環として,機能拡張,注意機構,マルチモーダルロスの重み付けといった異なるアプローチが試みられた(das et al, 2020, sandulescu, 2020, zhou et al, 2021; lippe et al, 2020)。 0.77
Oriol et al (2019) studied hateful memes by highlighting the importance of visual cues such as structural template, graphic modality, causal depiction, etc. Oriol et al (2019)は、構造的テンプレート、グラフィックモダリティ、因果描写などの視覚的手がかりの重要性を強調して、憎しみのあるミームを研究した。
訳抜け防止モード: Oriol et al (2019 )は憎しみのあるミームを研究。 構造的テンプレート、グラフィックモダリティ、因果描写などの視覚的手がかりの重要性を強調する。
0.69
英語(論文から抽出)日本語訳スコア
Split Train Validation Test Total 分割 列車 検証 テスト総数 0.70
# Examples Category-wise # Samples. #例 カテゴリ別#サンプル。 0.85
Not-harmful Harmful 3,618 216 612 4,446 害なし ハーモフル 3,618 216 612 4,446 0.40
1,206 72 316 1,594 1,206 72 316 1,594 0.34
2,412 144 296 2,852 2,412 144 296 2,852 0.33
Table 1: Summary of Ext-Harm-P, with overall and category-wise # of samples. 表1: Ext-Harm-Pの概要。 0.35
Web-entity detection along with fair face classification (Karkkainen and Joo, 2021) and semisupervised learning-based classification (Zhong, 2020) were also used for the hateful meme classification task. ヘイトフルミーム分類タスクには,フェアフェイス分類(karkkainen and joo, 2021)や半教師付き学習ベース分類(zhong, 2020)とともにwebエンティティ検出が用いられた。 0.77
Other noteworthy research includes using implicit models, e g , topic modelling and multimodal cues, for detecting offensive analogy (Shang et al , 2021b) and hateful discrimination (Mittos et al , 2020) in memes. その他の注目すべき研究は、暗黙のモデル、例えばトピックモデリングとマルチモーダルの手がかりを用いて、ミームにおける攻撃的アナロジー(shang et al , 2021b)と憎悪的差別(mittos et al , 2020)を検出することである。
訳抜け防止モード: その他の注目すべき研究には、暗黙のモデル、例えばトピックモデリングの利用がある。 and multimodal cues, for detection offensive analogy (shang et al, 2021b) ミームの憎しみのある差別(mittos et al, 2020)。
0.74
Wang et al (2021) argued that online attention can be garnered immensely via fauxtography, which could eventually evolve towards turning into memes that potentially go viral. Wang et al (2021) は、オンラインの注意をファクストグラフィーによって大いに惹きつけることができ、最終的にはウイルスに感染する可能性のあるミームへと進化するかもしれないと主張した。 0.58
To support research on these topics, several datasets for offensiveness, hate speech, and harmfulness detection have been created (Suryawanshi et al , 2020; Kiela et al , 2020; Pramanick et al , 2021a,b; Gomez et al , 2020; Dimitrov et al , 2021; Sharma et al , 2022). これらの研究を支援するために、攻撃性、ヘイトスピーチ、有害性検出のためのいくつかのデータセットが作成されている(Suryawanshi et al , 2020; Kiela et al , 2020; Pramanick et al , 2021a,b; Gomez et al , 2020; Dimitrov et al , 2021; Sharma et al , 2022)。 0.84
Most of the above studies attempted to address classification tasks in a constrained setting. 上記の研究のほとんどは、制約された設定で分類タスクを扱おうとした。 0.68
However, to the best of our knowledge, none of them targeted the task of detecting the specific entities that are being targeted. しかし、私たちの知る限りでは、どれもターゲットとなっている特定のエンティティを検出するタスクを目標としていません。 0.68
Here, we aim to bridge this gap with focus on detecting the specific entities targeted by a given harmful meme. ここでは,このギャップを,有害ミームを対象とする特定の実体の検出に焦点をあてて埋めることを目的とする。 0.67
3 Dataset The Harm-P dataset (Pramanick et al , 2021b) consists of 3,552 memes about US politics. 3データセット Harm-Pデータセット(Pramanick et al , 2021b)は、アメリカの政治に関する3,552のミームで構成されている。 0.65
Each meme is annotated with its harmful label and the social entity that it targets. 各ミームには、有害なラベルとそれがターゲットとする社会的実体が注釈付けされている。 0.56
The targeted entities are coarsely classified into four social groups: individual, organization, community, and the general public. 対象とする団体は、個人、組織、コミュニティ、一般の4つの社会グループに大まかに分類される。 0.75
While these coarse classes provide an abstract view of the targets, identifying the specific targeted person, organization, or community in a fine-grained fashion is also crucial, and this is our focus here. これらの粗いクラスはターゲットの抽象的なビューを提供する一方で、特定の対象者、組織、あるいはコミュニティをきめ細かな方法で識別することも重要です。 0.71
All the memes in this dataset broadly pertain to US Politics domain, and they target well-known personalities or organizations. このデータセットのすべてのミームは、米国の政治ドメインに広く関係しており、有名人格や組織をターゲットにしている。 0.59
To this end, we manually re-annotated the memes in this dataset with the specific people, organizations, and communities that they target. この目的のために、私たちはこのデータセットのミームを、ターゲットとする特定の人々、組織、コミュニティで手動で再注釈しました。 0.54
Figure 2: Example meme, along with the candidate entities, harmful targets, and non-harmful references. 図2: 候補エンティティ、有害なターゲット、非有害な参照とともに、ミームの例。 0.71
Extending Harm-P (Ext-Harm-P). harm-p (ext-harm-p) の拡張。 0.34
Towards generalizability, we extend Harm-P by redesigning the existing data splits as shown in Table 1. 汎用性に向けて、表1に示すように既存のデータ分割を再設計することでharm-pを拡張する。 0.57
We call the resulting dataset Ext-Harm-P. 得られたデータセットをExt-Harm-Pと呼ぶ。 0.45
It contains a total of 4,446 examples including 1,594 harmful and 2,852 non-harmful; both categories have references to a number of entities. 合計4,446の例があり、1,594の有害なものと2,852の無傷なものが含まれている。 0.71
For training, we use the harmful memes provided as part of the original dataset (Pramanick et al , 2021b), which we re-annotate for the fine-grained entities that are being targeted harmfully as positive samples (harmful targets). トレーニングでは、原データセットの一部として提供される有害なミーム(Pramanick et al , 2021b)を使用し、有害なサンプル(有害なターゲット)として有害な対象となるきめ細かいエンティティに注釈を付けます。 0.64
This is matched with twice as many negative samples (not-harmful targets). これは負のサンプルの2倍(有害ではないターゲット)と一致します。 0.67
For negative targets, we use the top-2 entities from the original entity lexicon, which are not labeled for harmfulness and have the highest lexical similarity with the meme text (Ferreira et al , 2016). 負のターゲットに対しては、有害性を示すラベルが付けられておらず、ミームテキストと最も語彙的類似性が高いオリジナルのエンティティ辞書の上位2エンティティを使用します(Ferreira et al , 2016)。 0.70
This at least ensures lexical similarity with the entities referenced within a meme, thereby facilitating a confounding effect (Kiela et al , 2020) as well. これは少なくともミーム内で参照されるエンティティとの語彙的類似性を保証するため、コンバウンディング効果(Kiela et al , 2020)も促進される。 0.68
For the test set, all the entities are first extracted automatically using named entity recognition (NER) and person identification (PID)2. テストセットでは、名前付きエンティティ認識(NER)と個人識別(PID)2を用いて、すべてのエンティティを自動的に抽出する。 0.77
This is followed by manual annotation of the test set. この後、テストセットのマニュアルアノテーションが続く。 0.59
Dataset Annotation Process Since assessing the harmfulness of memes is a highly subjective task, our annotators were requested to follow four key steps when annotating each meme, aiming to ensure label consistency. データセットアノテーションプロセス ミームの有害性を評価することは非常に主観的なタスクであるため、アノテータは各ミームにアノテートを行う際に4つの重要なステップに従うように要求され、ラベルの一貫性を確保する。 0.52
The example in Fig 2 demonstrates the steps taken while annotating: we first identify the candidate entities, and then we decide whether a given entity is targeted in a harmful way. 図2の例では、アノテート中のステップが示されています: まず、候補エンティティを特定し、次に、あるエンティティが有害な方法でターゲットされているかどうかを決定します。
訳抜け防止モード: fig 2の例では、アノテーションを付けながらのステップを示している。 そして、あるエンティティが有害な方法でターゲットされているかどうかを判断します。
0.57
We asked our annotators to do the following (additional details about the annotation process are given in Appendix D): 私たちはアノテータに以下のように頼んだ(アノテーションプロセスに関する追加の詳細はAppendix Dで示されています)。
訳抜け防止モード: 私たちはアノテーターに尋ねた 以下に示す(アノテーションプロセスの詳細は、Appendix Dで述べられている)。
0.67
2NER using SpaCy & PID using http://github. SpaCyとPIDを使ってhttp://github.2NERを使う。 0.62
com/ageitgey/face_re cognition. と認識する。 0.23
英語(論文から抽出)日本語訳スコア
(a) Individual (b) Organization (a)個人 (b)組織 0.58
(c) Community Figure 3: Comparison plots for the top-5 harmfully referenced entities, for their harmful/non-harmful referencing in our dataset. (c)コミュニティ 図3: データセットの有害かつ有害な参照のために、トップ5の有害な参照エンティティの比較プロット。 0.76
1. Understand the meme and its background 1.ミームとその背景を理解する 0.77
context. 2. List all the valid candidate entities that are referenced in the meme. コンテキスト。 2.memeで参照される有効な候補エンティティをすべてリストする。 0.65
For the example on Fig 2, the valid entities are Bill Clinton, Hillary Clinton, White House, Donald Trump, and Democrat. 図2の例では、ビル・クリントン、ヒラリー・クリントン、ホワイトハウス、ドナルド・トランプ、民主党が有効である。 0.78
3. Assign the relevant entities as harmful. 3. 関連団体を有害とする。 0.59
For the example on Fig 2, Bill Clinton, Hillary Clinton, and Democrat are targeted in the meme for influencing the appointment of their kin on government positions. fig 2の例では、ビル・クリントン、ヒラリー・クリントン、民主党員が、政府の役職に仲間の指名に影響を与えているミームの対象になっている。 0.69
4. Finally, assign harmless references to entities under the non-harmful category. 4. 最後に、無害なカテゴリーのエンティティに無害な参照を割り当てる。 0.77
In the example on Fig 2, Donald Trump and White House would be annotated as non-harmful. 図2の例では、ドナルド・トランプとホワイトハウスは無害であると注釈される。 0.76
We had three annotators and a consolidator. 3人の注釈家と結束者がいました 0.32
The inter-annotator agreement before consolidation had a Fleiss Kappa of 0.48 (moderate agreement), and after consolidation it increased to 0.64 (substantial agreement). 統合前の注釈間合意は、フレス・カッパが0.48(モデレート協定)であり、統合後、0.64(サブスタンシャル協定)に増加した。 0.54
Analyzing Harmful Targeting in Memes. テーマにおける有害なターゲットの分析 0.40
The memes in Ext-Harm-P are about US Politics, and thus they prominently feature entities such as Joe Biden and Donald Trump, both harmfully and harmlessly. Ext-Harm-Pのミームは米国の政治に関するもので、ジョー・バイデンやドナルド・トランプのような、有害かつ無害な存在を特徴としている。 0.64
The ratio between these types of referencing varies across individuals, organizations, and communities. これらのタイプの参照の比率は、個人、組織、コミュニティによって異なる。 0.66
We can see in Fig 3 that the top-5 harmfully referenced individuals and organizations are observed to be subjected to a more relative harm (normalized by the number of occurrences of these entities in memes). 図3では、有害に言及されたトップ5の個人や組織は、より相対的な害を受ける(ミームにおけるこれらの実体の出現数によって正規化される)。 0.63
However, the stacked plots for the top-5 harmfully targeted communities Mexicans, Black, Muslim, Islam, and Russian in Fig 3c show relatively less harm targeting these communities. しかし、第3四半期のメキシコ人、黒人、ムスリム、イスラム教、ロシア人が標的としていたトップ5のプロットは、これらのコミュニティを標的とする被害が比較的少なかった。 0.53
Figure 4: The architecture of our proposed approach DISARM. 図4: 提案したアプローチのアーキテクチャ。 0.59
Here, cmm is the multimodal representation used for the final classification. ここで、cmmは最終分類に使用されるマルチモーダル表現である。 0.76
4 Proposed Approach Our proposed model DISARM, as depicted in Fig. 4, is based on a fusion of the textual and the visual modalities, explicitly enriched via contextualised representations by leveraging CLIP (Radford et al , 2021). 4 提案手法 提案するモデルの非武装は,第4図に示すように,クリップ(radford et al, 2021)を利用して,文脈表現によって明示的に強化されたテキストと視覚モダリティの融合に基づいている。 0.70
We chose CLIP as a preferred encoder module for contextualization, due to its impressive zero-shot multimodal embedding capabilities. 印象的なゼロショットマルチモーダル埋め込み機能のため、コンテキスト化のための推奨エンコーダモジュールとしてclipを選択しました。 0.48
At first, valid entities are extracted automatically, as part of the process of creating training/validation sets. まず、トレーニング/検証セットの作成プロセスの一環として、有効なエンティティを自動的に抽出する。 0.67
Then, for each meme, we first obtain the contextualized-entit y (CE) representation by fusing the CLIP-encoded context and the entity representation. 次に、各ミームに対して、まずCLIPエンコードされたコンテキストとエンティティ表現を融合させることにより、文脈化エンテント(CE)表現を得る。 0.52
CE is then fused with BERT-based (Devlin et al , 2019) embeddedharmfulness (EH) encoding fine-tuned on the OCR-extracted text and entities as inputs. その後、CE は BERT ベースの (Devlin et al , 2019) 組み込みハームフルネス (EH) と融合し、OCR で抽出されたテキストとエンティティを入力として微調整する。 0.55
We call the resulting fusion output a contextualizedtext (CT) representation. 得られた融合出力を文脈化テキスト(CT)表現と呼ぶ。 0.78
CT is then fused with the contextualized-image (CI) representation, obtained using the CLIP encoder for the image. CTは、画像のCLIPエンコーダを用いて取得した文脈化イメージ(CI)表現と融合する。 0.71
We, henceforth, refer to the resulting enriched representation as the contextualized multimodal (CMM) representation. したがって、得られたリッチな表現を文脈化されたマルチモーダル(CMM)表現と呼ぶ。 0.66
We modify the multimodal lowrank bi-linear pooling (Kim et al , 2017) to fuse the input representation into a joint space. 入力表現を結合空間に融合させるために,マルチモーダル低ランク双線形プール (Kim et al , 2017) を改良する。 0.74
# of Memesjoe bidendonald trumpbarack obamahillary clintonmike pence0100200300400Ha rmfulNot-harmful# of Memesdemocratic partyrepublican partylibertarian partycnngovernment05 0100150200250Harmful Not-harmful# of Memesmexicansblackmu slimislamrussian0102 030HarmfulNot-harmfu lCLIP text-encoderCLIP image-encoder[Image]Multi-modal Low-rank Bi-linear PoolingConcatenation [Entity][Context][OCR-text, Entity]Embedding lookup # of Memesjoe bidendonald trumpbarack obamahillary clintonmike pence0100400HarmfulN ot-harmful# of Memesdemocratic Partyrepublican Partylibertarian partycnn Government0501502002 50HarmfulNot-harmful # of Memesmexicansblackmu slimislamrusian01020 30HarmfulNot-harmful CLIP text-encoderCLIP image-encoder[Image]Multi-modal Low-rank Bi-linear PoolingConcatenation [Entity][Context][OCR-text, Entity]Embed lookupup 0.32
英語(論文から抽出)日本語訳スコア
This approach, as can be seen in the subsequent sections below, not only can capture complex cross-modal interactions, but it also provides an efficient fusion mechanism towards obtaining a context-enriched representation. このアプローチは、以下のセクションで見られるように、複雑なクロスモーダル相互作用をキャプチャできるだけでなく、文脈に富んだ表現を得るための効率的な融合機構も提供する。 0.70
Finally, we use this representation to train a classifier for our task. 最後に、この表現を使ってタスクの分類器を訓練します。 0.61
We describe each module in detail below. 以下、各モジュールについて詳述する。 0.71
Low-rank Bi-linear Pooling (LRBP). 低ランクBi-linear Pooling (LRBP)。 0.68
We begin by revisiting low-rank bi-linear pooling to set the necessary background. まず、必要な背景を設定するために、低ランクの双線型プーリングを再検討する。 0.43
Due to the many parameters in bi-linear models, Pirsiavash et al (2009) suggested a low-rank bi-linear (LRB) approach to reduce the rank of the weight matrix Wi. 双線型モデルの多くのパラメータのため、Pirsiavash et al (2009) は重量行列 Wi のランクを下げるために低ランク双線形(LRB)アプローチを提案した。 0.77
Consequently, the number of parameters and hence the complexity, are reduced. その結果、パラメータの数、したがって複雑さが減少する。 0.74
The weight matrix Wi is re-written as Wi = UiVT i , where Ui ∈ RN×d and Vi ∈ RM×d, effectively putting an upper bound of min(N, M ) on the value of d. 重み行列 Wi は Wi = UiVT i と書き直され、ここで Ui ∈ RN×d と Vi ∈ RM×d は d の値に min(N, M ) の上界を効果的に配置する。 0.81
Therefore, the low-rank bi-linear models can be expressed as follows: したがって、下記の低位双線型モデルを表現することができる。 0.75
i x ◦ VT i x > VT である。 0.61
i y) T (UT I y) T (UT) 0.43
i y = 1 fi = xT Wiy = xT UiVT i y = 1 fi = xT Wiy = xT UiVT 0.43
(1) where 1 ∈ Rd is a column vector of ones, and ◦ is Hadamard product. 1) ここで 1 ∈ rd は 1 の列ベクトルであり、s はアダマール積である。
訳抜け防止モード: (1)どこで 1 ∈ rd は 1 の列ベクトルである。 はハダマール製品である。
0.76
fi in Equation (1) can be further re-written to obtain f as follows: f = PT (UT x ◦ VT y) + b 方程式 (1) における fi は f を得るためにさらに次のように書き直せる: f = pt (ut x , vt y) + b 0.84
(2) where f ∈ {fi}, P ∈ Rd×c, b ∈ Rc, d is an output, and c is an LRB hyper-parameter. 2) ここで f ∈ {fi}, p ∈ rd×c, b ∈ rc, d は出力、c は lrb ハイパーパラメータである。
訳抜け防止モード: (2 ) ここで f ∈ { fi }, P ∈ Rd×c である。 b ∈ Rc, dは出力です c は LRB hyper-パラメータです。
0.78
We further introduce a non-linear activation formulation for LRBP, following Kim et al (2017), who argued that non-linearity both before and after the Hadamard product complicates the gradient computation. さらに、Kim et al (2017) に続き、アダマール積の前後の非線形性は勾配計算を複雑にすると主張したLRBPの非線形活性化定式化を導入する。 0.71
This addition to Equation (2) can be represented as follows: Equation (2) へのこの追加は次のように表現できる。 0.78
f = PT tanh(UT x ◦ VT y) + b f = PT tanh(UT x > VT y) + b 0.41
(3) We slightly modify the multimodal low-rank bi-linear pooling (MMLRBP). (3) 我々はMMLRBP(Multimodal Low-rank bi-linear pooling)を少し修正した。 0.53
Instead of directly projecting the input x ∈ RN and y ∈ RM into a lower dimension d, we first project the input modalities in a joint space N. We then perform LRBP as expressed in Equation 3, by using jointly embedded representations xmm ∈ RN×d and ymm ∈ RN×d to obtain a multimodal fused representation fmm, as expressed below: 入力 x ∈ rn と y ∈ rm を直接低次元 d に投影する代わりに、まずジョイント空間 n の入力モダリティを投影し、次に式 3 で表現された lrbp を実行し、xmm ∈ rn×d と ymm ∈ rn×d を共同で埋め込み表現し、以下で示すように多様融合表現 fmm を得る。
訳抜け防止モード: 入力 x ∈ RN と y ∈ RM を直接下次元 d に射影する代わりに。 まず、結合空間 N において入力モダリティを射影し、次に方程式 3 で表される LRBP を実行する。 結合埋め込み表現 xmm ∈ RN×d と ymm ∈ RN×d を用いることで 以下に示すようなマルチモーダル融合表現fmmを得る
0.78
Structured Context. 構造化コンテキスト。 0.74
Towards modelling auxiliary knowledge, we curate contexts for the memes in Ext-Harm-P. 補助知識のモデル化に向けて, Ext-Harm-Pにおけるミームの文脈をキュレートする。 0.48
First, we use the meme text as a search query3 to retrieve relevant contexts, using the title and the first paragraph of the resulting top document as a context, which we call con. まず、memeテキストを検索クエリとして使用して関連するコンテキストを検索し、結果のトップドキュメントのタイトルと第1段落をコンテキストとして使用します。 0.67
Contextualized-entit y Representation (CE). contextized-entity representation (ce) の略。 0.46
Towards modelling the context-enriched entity, we first obtain the embedding of the input entity ent. コンテキストエンリッチエンティティのモデリングに向けて、まず入力エンティティentの埋め込みを取得します。 0.59
Since we have a finite set of entities referenced in the memes in our training dataset, we perform a lookup in the embedding matrix from RV ×H to obtain the corresponding entity embedding ent ∈ RH, with H = 300 being the embedding dimension and V the vocabulary size. トレーニングデータセットのミームに参照されるエンティティの有限集合が存在するので、RV ×H から埋め込み行列のルックアップを行い、対応するエンティティ埋め込み ent ∈ RH を得る。
訳抜け防止モード: トレーニングデータセットには、ミームに参照されるエンティティの有限セットがある。 RV ×H から埋め込み行列のルックアップを行い、対応する実体 ent ∈ RH を得る。 H = 300 が埋め込み次元、V が語彙サイズである。
0.66
We train the embedding matrix from scratch as part of the overall training of our model. モデル全体のトレーニングの一部として、組み込みマトリックスをスクラッチからトレーニングします。 0.63
We project the obtained entity representation ent into a 512dimensional space, which we call e. 得られた実体表現 ent を 512次元空間に投影し、それを e と呼ぶ。 0.73
To augment a given entity with relevant contextual information, we fuse it with a contextual representation c ∈ R512 obtained by encoding the associated context (con) using CLIP. 関連するコンテキスト情報を持つエンティティを拡大するために、CLIPを用いて関連するコンテキスト(con)を符号化して得られたコンテキスト表現 c ∈ R512 と融合する。 0.71
We perform this fusion using our adaptation of the multimodal low-rank bi-linear pooling as defined by Equation (4). 方程式 (4) で定義されるマルチモーダル低ランク双線型プーリングの適応を用いて, この融合を行う。 0.73
This yields the following contextualized-entit y (CE) representation cent: これにより、以下の文脈化中心(CE)表現セントが得られる。 0.44
1 tanh(UT 1 tanh(UT) 0.90
cent = PT (5) where cent ∈ R512, P1 ∈ R256×512, b ∈ R512, U1 ∈ R512×256, and V1 ∈ R512×256. cent = PT (5) では、中心 ∈ R512, P1 ∈ R256×512, b ∈ R512, U1 ∈ R512×256, V1 ∈ R512×256 となる。
訳抜け防止モード: cent = PT (5) セント ∈ R512,P1 ∈ R256×512, b ∈ R512, U1 ∈ R512×256, V1 ∈ R512×256。
0.60
1 c) + b 1 e ◦ VT 1c) + b 1 e > VT である。 0.50
Contextualized-Text (CT) Representation. 文脈対応テキスト (CT) 表現。 0.71
Once we obtain the contextualized-entit y embedding cent, we concatenate it with the BERT encoding for the combined representation of the OCR-extracted text and the entity (oent ∈ R768). 文脈化エンティリティ埋め込みセントを得ると、OCR抽出されたテキストとエンティティ(oent ∈ R768)の複合表現に対してBERTエンコーディングと結合する。 0.67
We call this encoding an embedded-harmfulness (EH) representation. これをeh表現(embedd-harmfulness) と呼ぶ。 0.55
The concatenated representation from R1280 is then projected non-linearly into a lower dimension using a dense layer of size 512. r1280からの連結表現は、サイズ512の高密度層を用いて非線形に下次元に投影される。 0.69
We call the resulting vector ctxt a contextualized-text (CT) representation: 得られたベクトルctxtを文脈化テキスト(CT)表現と呼びます。 0.73
ctxt = Wi[oent, cent] + bi ctxt = Wi[oent, cent] + bi 0.43
(6) where W ∈ R1280×512. (6) W ∈ R1280×512。 0.60
fmm = PT tanh(UT xmm ◦ VT ymm) fmm = PT tanh(UT xmm > VT ymm) 0.41
(4) 3https://pypi.org/pr oject/ (4) 3https://pypi.org/pr oject/ 0.31
googlesearch-python/ googlesearch-python/ 0.24
英語(論文から抽出)日本語訳スコア
Contextualized Multimodal (CMM) Representation. コンテキスト型マルチモーダル(CMM)表現。 0.74
Once we obtain the contextualized-text representation ctxt ∈ R512, we again perform multimodal low-rank bi-linear pooling using Equation (4) to fuse it with the contextualizedimage representation cimg ∈ R512, obtained using the CLIP image-encoder. 文脈化テキスト表現 ctxt ∈ R512 を得ると、Equation (4) を用いてマルチモーダルな低ランク双線形プールを行い、CLIP 画像エンコーダを用いて得られる文脈化画像表現 cimg ∈ R512 と融合する。 0.76
The operation is expressed as follows: 操作は以下の通りである。 0.73
cmm = PT (7) where cmm ∈ R512, P2 ∈ R256×512, U2 ∈ R512×256, and V2 ∈ R512×256. cmm=pt (7) cmm ∈ R512, P2 ∈ R256×512, U2 ∈ R512×256, V2 ∈ R512×256。 0.72
2 tanh(UT 2 tanh(UT) 0.91
2 ctxt ◦ VT 2 ctxt は vt である。 0.51
2 cimg) Notably, we learn two different projection matrices P1 and P2, for the two fusion operations performed as part of Equations (5) and (7), respectively, since the fused representations at the respective steps are obtained using different modality-specific interactions. 2cimg)。 特に,方程式 (5) と (7) の一部として行われた2つの融合演算について,各ステップの融合表現は異なる様相特異的相互作用を用いて得られるため,二つの異なる投影行列 p1 と p2 をそれぞれ学習する。 0.78
Classification Head. Towards modelling the binary classification for a given meme and a corresponding entity as either harmful or non-harmful, we use a shallow multi-layer perceptron with a single dense layer of size 256, which represents a condensed representation for classification. 分類責任者。 与えられたミームと対応する実体の2元分類を有害か非調和かのどちらかとしてモデル化するために、分類の凝縮表現を表す1つの密度層256の浅い多層パーセプトロンを用いる。 0.69
We finally map this layer to a single dimension output via a sigmoid activation. 最終的にこの層をシグモノイド活性化による1次元の出力にマッピングする。 0.74
We use binary crossentropy for the back-propagated loss. バックプロパゲーション損失にはバイナリクロスエントロピーを使用します。 0.59
5 Experiments various experiment with 5 実験 様々な 実験して 0.76
unimodal We (image/text-only) and multimodal models, including such pre-trained on multimodal datasets such as MS COCO (Lin et al , 2014) and CC (Sharma et al , 2018). unimodal We (画像/テキストのみ)とマルチモーダルモデル(MS COCO (Lin et al , 2014)やCC (Sharma et al , 2018)のようなマルチモーダルデータセットで事前トレーニングされたモデルを含む。 0.80
We train DISARM and all unimodal baselines using PyTorch, while for the multimodal baselines, we use the MMF framework.4 5 私たちは、PyTorchを使ってDissARMと全ての単調なベースラインをトレーニングしますが、マルチモーダルベースラインでは、MMFフレームワーク.45を使用します。
訳抜け防止モード: 私たちは、マルチモーダルベースラインで、DissARMとPyTorchを使って全ての単調ベースラインをトレーニングします。 MMFフレームワークを使用します。
0.62
5.1 Evaluation Measures For evaluation, we use commonly used macroaverage versions of accuracy, precision, recall, and F1 score. 5.1 評価尺度では, 精度, 精度, リコール, F1 スコアのマクロ平均値を用いて評価を行った。 0.75
For example, we discuss the harmful class recall, which is relevant for our study as it characterizes the model’s performance at detecting harmfully targeting memes. 例えば、有害なクラスリコールは、有害なターゲットミームを検出するモデルのパフォーマンスを特徴付けるため、研究に関係しています。
訳抜け防止モード: 例えば、有害なクラスリコールについて論じます。 本研究は,有害な標的ミームの検出におけるモデルの性能を特徴付けるものである。
0.72
All results we report are averaged over five independent runs. 報告したすべての結果は、5つの独立したランニングで平均されます。 0.47
4github.com/facebook research/mmf 5Additional details along with the values of the hyper- 4github.com/facebook research/mmf 5ハイパーの値とともに追加の詳細 0.58
parameters are given in Appendix A. パラメータは Appendix A で与えられる。 0.81
Evaluation Strategy. With the aim of having a realistic setting, we pose our evaluation strategy as an open-class one. 評価戦略。 現実的な設定を目指して、我々は評価戦略をオープンクラスとして採用する。 0.53
We train all systems using under-sampling of the entities that were not targeted in a harmful way: using all positive (harmful) examples and twice as many negative (nonharmful) ones. すべての正の(有害な)例と負の(有害でない)例の2倍の(有害でない)例を使って、有害な方法でターゲットされていないエンティティのアンダーサンプリングを使用して、すべてのシステムをトレーニングします。
訳抜け防止モード: 有害な方法でターゲットにしなかったエンティティのアンダーサンプリングを使用して、すべてのシステムをトレーニングします。 正の(有害な)例と負の(非調和な)例の2倍の使用。
0.64
We then perform an open-class testing, for all referenced entities (some possibly unseen on training) per meme, effectively making the evaluation more realistic. 次に、ミームごとに参照されたすべてのエンティティ(おそらくトレーニングでは見えない)に対してオープンクラステストを実施し、効果的に評価をよりリアルにします。
訳抜け防止モード: そして、meme毎にすべての参照エンティティ(おそらくはトレーニング対象外)に対して、オープンクラステストを実行します。 評価をより現実的なものにします
0.64
To this end, we formulate three testing scenarios as follows, with their Harmful (H) and Non-harmful (N) counts: この目的のために、我々は以下の3つのテストシナリオを定式化します。
訳抜け防止モード: この目的のために、以下の3つのテストシナリオを定式化する。 Harmful (H ) および Non-toxic (N ) counts :
0.78
1. Test set A (316H, 296N): All examples in this dataset are about entities that were seen during training. 1. テストセットA (316H, 296N): このデータセットのすべての例は、トレーニング中に見られたエンティティに関するものです。 0.75
2. Test set B (27H, 94N): The examples in this set are about entities that were not seen as harmful during training. 2. テストセットB (27H, 94N): このセットの例は、トレーニング中に有害と見なされなかったエンティティに関するものである。 0.80
3. Test set C (16H, 76N): All examples are about entities that were completely unseen during training. 3. テストセットC (16H, 76N): トレーニング中に完全に見えないエンティティに関するすべての例。 0.84
Baseline Models. ベースラインモデル。 0.69
Our baselines include both unimodal and multimodal models as follows: – Unimodal Systems: (cid:73) VGG16, VIT: For the unimodal (image-only) systems, we use two well-known models: VGG16 (Simonyan and Zisserman, 2015) and VIT (Vision Transformers) that emulate a Transformer-based application jointly over textual tokens and image patches (Dosovitskiy et al , 2021). ユニモーダルシステム: (cid:73) vgg16, vit: ユニモーダル(画像のみ)システムでは、vgg16 (simonyan and zisserman, 2015) と vit (vision transformers) の2つのよく知られたモデルを使用しており、テキストトークンとイメージパッチ(dosovitskiy et al, 2021)を介してトランスフォーマベースのアプリケーションをエミュレートしています。 0.70
(cid:73) GRU, XLNet: For the unimodal (text-only) systems, we use GRU (Cho et al , 2014), which adaptively captures temporal dependencies, and XLNet (Yang et al , 2019), which implements a generalized auto-regressive pre-training strategy. (cid:73) GRU, XLNet: ユニモーダル(テキストのみ)システムでは、時間的依存関係を適応的にキャプチャするGRU(Cho et al , 2014)と、一般化された自動回帰事前トレーニング戦略を実装したXLNet(Yang et al , 2019)を使用します。 0.58
– Multimodal Systems: (cid:73) MMF Transformer: This is a multimodal Transformer model that uses visual and language tokens with selfattention.6 (cid:73) MMBT: Multimodal Bitransformer (Kiela et al , 2019) captures the intramodal and the inter-modal dynamics. マルチモーダルシステム: (cid:73) mmfトランスフォーマー: 視覚および言語トークンを用いたマルチモーダルトランスフォーマーモデルで、セルフアテンション.6 (cid:73) mmbt: multimodal bitransformer (kiela et al , 2019) はイントラモーダルとインターモーダルダイナミクスをキャプチャする。 0.84
(cid:73) ViLBERT CC: Vision and Language BERT (Lu et al , 2019), pre-trained on CC (Sharma et al , 2018), is a strong model with task-agnostic joint representation. (cid:73) ViLBERT CC: Vision and Language BERT (Lu et al , 2019), CC (Sharma et al , 2018) はタスク非依存の関節表現を持つ強力なモデルである。 0.57
(cid:73) Visual BERT COCO: Visual BERT (Li et al , 2019), pre-trained on the MS COCO dataset (Lin et al , 2014). (cid:73) Visual BERT COCO: Visual BERT (Li et al , 2019) MS COCOデータセット(Lin et al , 2014)で事前トレーニング。 0.57
6http://mmf.sh/docs/ notes/model_zoo 6http://mmf.sh/docs/ notes/model_zoo 0.14
英語(論文から抽出)日本語訳スコア
System Modality Approach システムモダリティアプローチ 0.69
Acc Prec Rec Acc 序文 レクリエーション 0.28
F1 Test Set A F1 テストセットA 0.79
Acc Prec Rec Acc 序文 レクリエーション 0.28
F1 Test Set B F1 テストセットB 0.79
0.4060 XLNet Text-only 0.6765 0.4101 VGG Image-only 0.7451 0.4210 GRU Text-only 0.7484 0.4843 VIT Image only 0.7647 0.4302 ViLBERT CC 0.6895 0.5032 MM Transformer 0.6993 0.5108 VisualBERT 0.7026 0.5147 VisualBERT – COCO 0.7059 0.5310 0.7157 MMBT 0.5782 0.7516 ViLBERT CE + CI (concat) 0.4230 0.7353 0.781 CE + CI (MMLRBP) 0.5079 EH + CI (concat) 0.4964 0.6634 EH + CI (MMLRBP) 0.5470 0.7255 0.781 0.6498 DISARM ↑ 2.94% ↓ 1.5% ↑ 8% ↑ 3.5% ↓ 4% ↑ 13% ↑ 1% ↑ 4% ↑ 7.88% ↑ 2.5% ↑ 14.5% ↑ 7.16% 0.4060 xlnet テキストオンリー 0.6765 0.4101 vgg 画像オンリー 0.7451 0.4210 gru テキストオンリー 0.7484 0.4843 vit 画像のみ 0.7647 0.4302 vilbert cc 0.6895 0.5032 mm トランスフォーマー 0.6993 0.5108 visualbert 0.7026 0.5147 visualbert – coco 0.7059 0.5310 0.7157 mmbt 0.5782 0.7516 vilbert ce + ci (concat) 0.4230 0.7353 0.781 ce + ci (mmlrbp) 0.5079 eh + ci (concat) 0.4964 0.6634 eh + ci (mmlrbp) 0.5470 0.7255 0.781 0.6498 disarm (mmlrbp) 0.5464 0.6634 eh + ci (mmlrbp) 0.5470 0.7255 0.781 0.6498 disarm ...94% % % % % % % % % % % % % % % % % % である。 0.62
0.5041 0.5455 0.5455 0.5207 0.438 0.7769 0.5537 0.5785 0.6116 0.6612 0.4793 0.562 0.5868 0.6612 0.74 0.5041 0.5455 0.5455 0.5207 0.438 0.7769 0.5537 0.5785 0.6116 0.6612 0.4793 0.562 0.5868 0.6612 0.74 0.20
0.6663 0.7438 0.7473 0.7642 0.6835 0.6926 0.6918 0.7014 0.7121 0.7495 0.7361 0.7790 0.6609 0.7260 0.7845 0.6663 0.7438 0.7473 0.7642 0.6835 0.6926 0.6918 0.7014 0.7121 0.7495 0.7361 0.7790 0.6609 0.7260 0.7845 0.20
0.69 0.75 0.745 0.765 0.69 0.71 0.725 0.71 0.72 0.755 0.74 0.785 0.665 0.73 0.74 0.69 0.75 0.745 0.765 0.69 0.71 0.725 0.71 0.72 0.755 0.74 0.785 0.665 0.73 0.74 0.20
0.67 0.745 0.75 0.765 0.685 0.695 0.69 0.7 0.71 0.75 0.735 0.78 0.66 0.725 0.835 0.67 0.745 0.75 0.765 0.685 0.695 0.69 0.7 0.71 0.75 0.735 0.78 0.66 0.725 0.835 0.20
0.405 0.405 0.42 0.535 0.53 0.575 0.565 0.545 0.55 0.595 0.44 0.545 0.51 0.555 0.74 0.405 0.405 0.42 0.535 0.53 0.575 0.565 0.545 0.55 0.595 0.44 0.545 0.51 0.555 0.74 0.20
0.425 0.42 0.43 0.525 0.535 0.53 0.545 0.53 0.54 0.58 0.46 0.535 0.505 0.545 0.605 0.425 0.42 0.43 0.525 0.535 0.53 0.545 0.53 0.54 0.58 0.46 0.535 0.505 0.545 0.605 0.20
Not-harmful P R 0.52 0.73 0.81 0.71 0.76 0.73 0.79 0.74 0.6 0.71 0.57 0.75 0.78 0.54 0.62 0.73 0.64 0.74 0.78 0.68 0.77 0.71 0.84 0.74 0.6 0.67 0.74 0.67 0.81 0.74 Not-harmful P R 0.52 0.73 0.81 0.71 0.76 0.73 0.79 0.74 0.6 0.71 0.57 0.75 0.78 0.54 0.62 0.73 0.64 0.74 0.78 0.68 0.77 0.71 0.84 0.74 0.6 0.67 0.74 0.67 0.81 0.74 0.21
Harmful P R 0.82 0.65 0.68 0.79 0.74 0.76 0.74 0.79 0.77 0.67 0.82 0.67 0.67 0.84 0.78 0.69 0.78 0.7 0.82 0.73 0.7 0.77 0.83 0.72 0.72 0.66 0.72 0.78 0.86 0.74 Harmful P R 0.82 0.65 0.68 0.79 0.74 0.76 0.74 0.79 0.77 0.67 0.82 0.67 0.67 0.84 0.78 0.69 0.78 0.7 0.82 0.73 0.7 0.77 0.83 0.72 0.72 0.66 0.72 0.78 0.86 0.74 0.21
Not-harmful P 0.72 0.73 0.73 0.8 0.82 0.78 0.82 0.8 0.81 0.83 0.74 0.81 0.78 0.8 0.83 – Not-harmful P 0.72 0.73 0.73 0.8 0.82 0.78 0.82 0.8 0.81 0.83 0.74 0.81 0.78 0.8 0.83 – 0.22
Harmful P R R 0.22 0.13 0.59 0.15 0.11 0.66 0.19 0.13 0.65 0.56 0.25 0.51 0.71 0.25 0.35 0.64 0.28 0.51 0.27 0.59 0.54 0.48 0.26 0.61 0.44 0.27 0.66 0.48 0.33 0.71 0.37 0.18 0.51 0.52 0.26 0.57 0.37 0.23 0.65 0.29 0.37 0.74 0.79 0.38 0.69 ↑ 8% ↑ 5% ↑ 21% Harmful P R R 0.22 0.13 0.59 0.15 0.11 0.66 0.19 0.13 0.65 0.56 0.25 0.51 0.71 0.25 0.35 0.64 0.28 0.51 0.27 0.59 0.54 0.48 0.26 0.61 0.44 0.27 0.66 0.48 0.33 0.71 0.37 0.18 0.51 0.52 0.26 0.57 0.37 0.23 0.65 0.29 0.37 0.74 0.79 0.38 0.69 ↑ 8% ↑ 5% ↑ 21% 0.23
l a d o m i n U l a d o m i n U 0.42
l a d o m i t l u M l a d o m I t l u M 0.42
s e n i l e s a B s e n i l e s a B 0.42
m e t s y s m e t s y s 0.42
. p o r P . p o r p である。 0.52
s t n a i r a v & s t n a i r a v & 0.42
∆(DISARM −V iLBERT )×100(%) (DISARM −V iLBERT )×100(%) 0.43
Table 2: Performance comparison of unimodal and multimodal models vs. DISARM (and its variants) on Test Sets A and B. 表2: ユニモーダルモデルとマルチモーダルモデルの性能比較 テストセットaとbにおけるdisarm(とその変種)の比較。 0.82
Sys Approach l a d o m i n U シズ アプローチ l a d o m i n U 0.59
l a d o m i t l u M l a d o m I t l u M 0.42
GRU Text-only VIT Image only XLNet Text-only VGG Image-only ViLBERT CC VisualBERT MM Transformer ViLBERT VisualBERT – COCO MMBT CE + CI (concat) CE + CI (MMLRBP) EH + CI (concat) EH + CI (MMLRBP) DISARM GRU Text-only VIT Image only XLNet Text-only VGG Image-only ViLBERT CC VisualBERT MM Transformer ViLBERT VisualBERT – COCO MMBT CE + CI (concat) CE + CI (MMLRBP) EH + CI (concat) EH + CI (MMLRBP) DISARM 0.48
s e n i l e s a B s e n i l e s a B 0.42
m e t s y s m e t s y s 0.42
. p o r P . p o r p である。 0.52
s t n a i r a v & s t n a i r a v & 0.42
∆(DISARM −M M BT )×100(%) シュ(DISARM −M M BT )×100(%) 0.91
Rec F1 レクリエーション F1 0.52
Acc Prec Harmful R P 0.478 0.31 0.12 0.532 0.19 0.09 0.445 0.62 0.18 0.532 0.25 0.11 0.72 0.358 0.19 0.478 0.69 0.2 0.510 0.5 0.18 0.608 0.44 0.21 0.771 0.12 0.22 0.587 0.56 0.23 0.456 0.56 0.17 0.532 0.69 0.22 0.532 0.38 0.15 0.619 0.17 0.31 0.36 0.739 0.7 ↑ 15.21% ↑ 6% ↑ 15.5% ↑ 12.66% ↓ 1% ↑ 17% ↑ 13% 14% Acc 序文 Harmful R P 0.478 0.31 0.12 0.532 0.19 0.09 0.445 0.62 0.18 0.532 0.25 0.11 0.72 0.358 0.19 0.478 0.69 0.2 0.510 0.5 0.18 0.608 0.44 0.21 0.771 0.12 0.22 0.587 0.56 0.23 0.456 0.56 0.17 0.532 0.69 0.22 0.532 0.38 0.15 0.619 0.17 0.31 0.36 0.739 0.7 ↑ 15.21% ↑ 6% ↑ 15.5% ↑ 12.66% ↓ 1% ↑ 17% ↑ 13% 14% 0.28
Not-harmful P 0.78 0.78 0.84 0.79 0.87 0.87 0.83 0.84 0.83 0.87 0.82 0.88 0.81 0.83 0.86 Not-harmful P 0.78 0.78 0.84 0.79 0.87 0.87 0.83 0.84 0.83 0.87 0.82 0.88 0.81 0.83 0.86 0.21
0.41 0.4 0.515 0.42 0.49 0.56 0.505 0.54 0.515 0.575 0.495 0.595 0.475 0.495 0.73 0.41 0.4 0.515 0.42 0.49 0.56 0.505 0.54 0.515 0.575 0.495 0.595 0.475 0.495 0.73 0.20
0.394 0.403 0.415 0.414 0.350 0.442 0.448 0.505 0.511 0.514 0.412 0.485 0.442 0.483 0.641 0.394 0.403 0.415 0.414 0.350 0.442 0.448 0.505 0.511 0.514 0.412 0.485 0.442 0.483 0.641 0.20
0.45 0.435 0.51 0.45 0.53 0.535 0.505 0.525 0.525 0.55 0.495 0.55 0.48 0.5 0.61 0.45 0.435 0.51 0.45 0.53 0.535 0.505 0.525 0.525 0.55 0.495 0.55 0.48 0.5 0.61 0.20
R 0.51 0.61 0.41 0.59 0.26 0.43 0.51 0.64 0.91 0.59 0.43 0.5 0.57 0.68 0.76 R 0.51 0.61 0.41 0.59 0.26 0.43 0.51 0.64 0.91 0.59 0.43 0.5 0.57 0.68 0.76 0.21
Table 3: Performance comparison of unimodal and multimodal models vs. DISARM (and its variants) on Test Set C. 表3: ユニモーダルモデルとマルチモーダルモデルの性能比較 テストセットcにおけるdisarm(とその変種) 0.76
Experimental Results. We compare the performance of several unimodal and multimodal systems (pre-trained or trained from scratch) vs. DISARM and its variants. 実験結果。 我々は,複数の単一・マルチモーダルシステム(スクラッチから事前訓練または訓練)とDIARMとその変種の性能を比較した。 0.72
All systems are evaluated using the 3-way testing strategy described above. すべてのシステムは上記の3方向テスト戦略を用いて評価される。 0.70
We then perform ablation studies on representations that use the contextualized-entit y, its fusion with embedded-harmfulness resulting into contextualized-text, and the final fusion with contextualized-image yielding the contextualizedmultim odal modules of DISARM (see Appendix B for a detailed ablation study).7 次に,コンテキスト化エンティティを用いた表現のアブレーション研究を行い,その融合によってコンテキスト化テキストが生成され,コンテキスト化されたマルチモーダルモジュールを産出するコンテキスト化画像との最終的な融合を行う(詳細アブレーション研究の付録bを参照)。 0.66
This is followed by interpretability analysis. 続いて解釈可能性分析を行う。 0.69
Finally, we discuss the limitations of DISARM by performing error analysis (details in Appendix C). 最後に、エラー解析(Appendix Cの詳細)によってdisARMの限界について議論する。 0.70
All Entities Seen During Training: In our unimodal text-only baseline experiments, the GRUbased system yields a relatively lower harmful recall of 0.74 compared to XLNet’s 0.82, but a better overall F1 score of 0.75 vs. 0.67 for XLNet, as shown in Table 2. All Entities Seen Training: 原文のみのベースライン実験では、GRUベースのシステムは、XLNetの0.82よりも比較的低い0.74の有害リコールが得られるが、表2に示すように、全体的なF1スコアは0.75対0.67である。 0.69
The lower harmful precision of 0.65 and the not-harmful recall of 0.52 contribute to the lower F1 score for XLNet. 0.65の低い有害精度と0.52の無害リコールは、XLNetの低いF1スコアに寄与する。 0.68
7We use the abbreviations CE, CT, CI, CMM, EH, and MMLRBP for the contextualized representations of the entity, the text, the image, the multimodal representation, the embedded-harmfulness , and the multimodal low-rank bilinear pooling, respectively. 7) エンティティの文脈化表現としてce, ct, ci, cmm, eh, mmlrbpをそれぞれ用い, テキスト, 画像, マルチモーダル表現, 組込み調和性, マルチモーダル低ランク双線型プーリングを行った。 0.59
Among the image-only unimodal systems, VGG performs better with a non-harmful recall of 0.81, but its poor performance for detecting harmful memes yields a lower harmful recall of 0.68. 画像のみの単調なシステムでは、VGGは0.81の非有害なリコールにより性能が向上するが、有害なミームを検出する性能は低い0.68のリコールとなる。 0.56
At the same time, VIT has a relatively better harmful recall of 0.74. 同時に、VITは0.74の比較的良い有害なリコールを持っている。 0.61
Overall, the unimodal results (see Table 2) indicate the efficacy of self-attention over convolution for images and RNN (GRU) sequence modeling for text. 全体として、単調な結果(表2参照)は、画像の畳み込みに対する自己注意の有効性とテキストのRNN(GRU)シーケンスモデリングを示す。 0.72
Multimodally pre-trained models such as VisualBERT and ViLBERT yield moderate F1 scores of 0.70 and 0.68, and harmful recall of 0.78 and 0.77, respectively (see Table 2). VisualBERT や ViLBERT のようなマルチモーダル事前訓練されたモデルは、それぞれ 0.70 と 0.68 の適度な F1 スコアと 0.78 と 0.77 の有害なリコールを得る(表2参照)。 0.65
Fresh training facilitates more meaningful results in favour of nonharmful precision of 0.78 for both models, and harmful recall of 0.84 and 0.82 for VisualBERT and ViLBERT, respectively. 新鮮なトレーニングは、両方のモデルで0.78の無害な精度、VisualBERTとViLBERTで0.84と0.82の有害なリコールを好んで、より有意義な結果をもたらす。 0.61
Overall, ViLBERT yields the most balanced performance of 0.75 in terms of F1 score. 全体としては、VLBERTはF1スコアにおいて最もバランスの取れたパフォーマンスが0.75である。 0.52
It can be inferred from these results (see Table 2) that multimodal pre-training leverages domain relevance. これらの結果から推測できる(表2参照)。マルチモーダル事前トレーニングはドメインの関連性を活用する。 0.66
We can see in Table 2 that multimodal low-rank bi-linear pooling distinctly enhances the performance in terms of F1 score. 表2では、マルチモーダルな低ランクバイリニアプールがF1スコアの点において明らかに性能を高めることが分かる。 0.56
The improvements can be attributed to the fusion of the CE and EH representations, respectively, with CI, instead of a simple concatenation. これらの改善は、単純な結合ではなく、それぞれCIとCEとEHの融合によるものである。 0.57
This is more prominent for CE with an F1 score of 0.78, which shows the importance of modeling the background context. これは、背景コンテキストをモデル化することの重要性を示すF1スコアが0.78であるCEにとってより顕著である。 0.65
Finally, DISARM yields a balanced F1 score of 0.78, with a reasonable precision of 0.74 for nonharmful category, and the best recall of 0.86 for the harmful category. 最終的に、 DisARM はバランスの取れた F1 スコアが 0.78 で、非有害なカテゴリーでは 0.74 で、有害なカテゴリでは 0.86 である。 0.65
All Entities Unseen as Harmful Targets During Training: With Test Set B, the evaluation is slightly more challenging in terms of the entities to be assessed, as these were never seen at training time as harmful. トレーニング中、すべてのエンティティは有害なターゲットとして見えない: テストセットBでは、これらがトレーニング時に有害であると見なされることはなかったため、評価すべきエンティティに関して少し難しい。
訳抜け防止モード: トレーニング中の有害な標的としての全ての存在 : テストセットB, を用いて 評価対象の要素に関して 評価は少し難しいです 訓練の時点では 有害とは見られませんでした
0.83
英語(論文から抽出)日本語訳スコア
(a) L-AT (c) V-AT-DISARM (a)L-AT (c)V-AT-DISARM 0.36
(b) MM-AT-CLIP Target Candidate→democratic party Context→Politics tears families apart during bruising political season, when many Americans drop friends and family members who have different political views. b)mm-at-clip target candidate→democratic party context→politics tears families between bruing political season (b) 多くのアメリカ人は、異なる政治的見解を持つ友人や家族を捨てた。 0.67
(d) V-AT-ViLBERT (d)V-AT-VilBERT 0.27
Figure 5: Comparison of the attention-maps for DISARM [ 図5: DisARM の注意マップの比較 [in Japanese] 0.75
(a), (b) & (c)] and ViLBERT [ (a) (b)& (c) と ViLBERT [ 0.45
(d)] using BertViz and Grad-CAM. (d) BertViz と Grad-CAM を使用する。 0.84
Unimodal systems perform poorly on the harmful class, with the exception of XLNet (see Table 2), where the harmful class recall as 0.56. ユニモーダルシステムは、有害クラスを0.56でリコールするxlnet (table 2) を除いて、有害クラスではパフォーマンスが劣る。 0.70
For the multimodal baselines, systems pre-trained using COCO (VisualBERT) and CC (ViLBERT) yield a moderate recall of 0.64 and 0.71 for the harmful class in contrast to what we saw for Test Set A in Table 2. マルチモーダルベースラインでは、COCO(VisualBERT)とCC(ViLBERT)を用いて事前訓練したシステムでは、表2のTest Set Aで見たものとは対照的に有害なクラスに対して0.64と0.71の適度なリコールが得られる。
訳抜け防止モード: マルチモーダルベースラインのための事前訓練システム COCO (VisualBERT ) と CC (ViLBERT ) 有害な階級に対する0.64と0.71の適度なリコールを、それとは対照的に与える 表2でテストセットAを見ました。
0.78
This could be due to additional common-sense reasoning helping such systems, on a test set that is more open-ended compared to Test Set A. Their non-pre-trained versions along with the MM Transformer and MMBT achieve better F1 scores, but with low harmful recall. これは、テストセットaと比較してよりオープンに制限されたテストセット上で、これらのテストセットが、mmトランスフォーマーとmmbtと共に、より優れたf1スコアを達成するが、有害なリコールは少ない、追加のコモンセンス推論によって実現される可能性がある。 0.51
Multimodal fusion using MMLRBP improves the harmful class recall for CE to 0.52, but yields lower values of 0.37 for EH fusion with CI (see Table 2). MMLRBPを用いたマルチモーダル融合はCEの有害なクラスリコールを0.52に改善するが、CIとのEH融合では0.37の低い値が得られる(表2参照)。 0.71
This reconfirms the utility of the context. これはコンテキストの有用性を再確認する。 0.61
In comparison, DISARM yields a balanced F1 score of 0.65 with the best precision of 0.83 and 0.38, along with decent recall of 0.79 and 0.69 for non-harmful and harmful memes, respectively. 比較すると、disARMはバランスの取れたF1スコアが0.65で、最高の精度は0.83と0.38で、また、有害なミームは0.79と0.69である。 0.64
All Entities Unseen During Training: The results decline in this scenario (similarly to Test Set B), except for the harmful class recall of 0.62 for XLNet, as shown in Table 3. トレーニング中のすべてのエンティティ: 結果は、表3に示すように、xlnetの有害クラスリコール 0.62 を除いて、このシナリオ(テストセット b と同様)で低下する。 0.76
In the current scenario (Test Set C), none of the entities being assessed at testing is seen during the training phase. 現在のシナリオ(Test Set C)では、トレーニングフェーズでテストで評価されているエンティティはどれも見えません。 0.78
For multimodal baselines, we see a similar trend for VisualBERT (COCO) and ViLBERT (CC), with the harmful class recall of 0.72 for ViLBERT (CC) being significantly better than the 0.12 for VisualBERT (COCO). マルチモーダルベースラインでは、VisualBERT (COCO) や ViLBERT (CC) と同様の傾向があり、VLBERT (CC) の有害なクラスリコールは、VisualBERT (COCO) の 0.12 よりもはるかに優れている。
訳抜け防止モード: マルチモーダルベースラインでは、VisualBERT (COCO) と ViLBERT (CC) も同様の傾向が見られる。 ViLBERT(CC)の0.72の有害なクラスリコールは、VisualBERT(COCO)の0.12よりも大幅に優れている。
0.76
This again emphasizes the need for the affinity between the pre-training dataset and the downstream task at hand. これにより、事前トレーニングデータセットと手前の下流タスクとの親和性の必要性が再び強調される。 0.55
In general, the precision for the harmful class is very low. 一般に、有害な階級の精度は非常に低い。 0.65
We observe (see Table 3) sizable boost for the harmful class recall for MMLRBP-based multimodal fusion of CI with CE (0.69%), against a decrease with EH (0.31%). MMLRBPをベースとしたCIとCEを併用したマルチモーダル融合(0.69%)では,EHの低下(0.31%)に対して,有害なクラスリコールの最大化が可能であった。 0.71
In comparison, DISARM yields a low, yet the best harmful precision of 0.36, and a moderate recall of 0.70 (see Table 3). 比較すると、disARMは低いが最も有害な精度は0.36で、中程度のリコールは0.70である(表3参照)。 0.73
Moreover, besides yielding reasonable precision and recall of 0.86 and 0.76 for the non-harmful class, DISARM achieves better average precision, recall, and F1 scores of 0.61, 0.73, and 0.64, respectively. さらに,非調和クラスでは0.86,0.76の適度な精度とリコールが得られ,0.61,0.73,0.64のf1スコアがそれぞれ向上した。 0.78
Generalizability of DISARM. DISARMの汎用性。 0.32
The generalizability of DISARM follows from its characteristic modelling and context-based fusion. DISARMの一般化は、その特性モデリングとコンテキストベースの融合から導かれる。 0.61
DISARM demonstrates an ability to detect harmful targeting for a diverse set of entities. DISARMは、多様なエンティティセットに対する有害なターゲティングを検出する能力を示す。 0.72
Specifically, the threeway testing setup inherently captures the efficacy with which DISARM can detect unseen harmful targets. 具体的には、三方向テストのセットアップは、本質的にDisARMが目に見えない有害な標的を検出する効果を捉えている。 0.46
The prediction for entities completely unseen on training yields better results (see Tables 2 and 3), and suggests possibly induced bias in the former scenario. トレーニングで完全に見えないエンティティの予測は、よりよい結果をもたらす(表2と表3参照)。
訳抜け防止モード: トレーニングで完全に見えないエンティティの予測は、より良い結果をもたらす(表2、3参照)。 前者のシナリオに 偏見を生じさせます
0.64
Moreover, it is a direct consequence of the fact that we were able to incorporate only a limited set of the 246 potential targets. さらに、246の潜在的なターゲットの限られたセットのみを組み込むことができたという事実の直接的な結果です。 0.76
Overall, we argue that DISARM generalizes well for unseen entities with 0.65 and 0.64 macroF1 scores, as compared to ViLBERT’s 0.58 and MMBT’s 0.51, for Test Sets B and C, respectively. 全体として DisARM は、テストセット B と C の ViLBERT の 0.58 と MMBT の 0.51 と比較すると、0.65 と 0.64 のマクロF1 スコアを持つ未確認のエンティティに対してよく一般化されていると論じている。 0.59
Diagnosis. Despite 診断。 にもかかわらず 0.53
Comparative the marginally better harmful recall for ViLBERT (CC) on Test Set B (see Table 2) and Test Set C (see Table 3), the overall balanced performance of DISARM appears to be reasonably justified based on the comparative interpretability analysis between the attention maps for the two systems. テストセットB(表2)とテストセットC(表3)のViLBERT(CC)を比べれば、DIARMの全体的なバランスの取れた性能は、2つのシステムのアテンションマップ間の相対的解釈可能性分析に基づいて合理的に正当化される。
訳抜け防止モード: テストセットBにおける ViLBERT (CC) の安全性比較 表2を参照。 ) と Test Set C () 表3参照。 ) DisARM の全体的な均衡性能 2つのシステムに対するアテンションマップ間の比較解釈可能性分析に基づいて、合理的に正当化する。
0.79
英語(論文から抽出)日本語訳スコア
Fig. 5 shows the attention maps for an example meme. 図5は、例のミームのアテンションマップを示しています。 0.69
It depicts a meme that is correctly predicted to harmfully target the Democratic Party by DISARM and incorrectly by ViLBERT. これは、民主党がdisARMによって有害にターゲットし、VilBERTによって正しく予測されるミームを描いている。 0.55
As visualised in Fig 5a, the harmfully-inclined word killing effectively attends not only to baby, but also to Democrats and racist. 図5aに示されているように、有害な言葉による殺人は、赤ちゃんだけでなく、民主党や人種差別主義者にも効果的に関与している。 0.53
The relevance is depicted via different color schemes and intensities, respectively. 関連性はそれぞれ異なる色のスキームと強度で表現される。 0.73
Interestingly, killing also attends to the Democratic Party, both as part of the OCRextracted text and the target-candidate, jointly encoded by BERT. 興味深いことに、殺害はOCR抽出されたテキストと、BERTが共同で符号化した標的候補の両方の一部として民主党にも参加している。
訳抜け防止モード: 興味深いことに、殺害 また、OCR抽出テキストの一部として、民主党にも出席する ターゲット - 候補 - BERT が共同でエンコードする。
0.59
The multimodal attention leveraged by DISARM is depicted (via the CLIP encoder) in Fig 5b, demonstrating the utility of contextualised attention over the male figure that represents an attack on the Democratic Party. DISARMが活用するマルチモーダルな注意は(CLIPエンコーダを介して)図5bに描かれており、民主党に対する攻撃を表す男性像に対する文脈化された注意の有用性を示している。 0.74
Also, DISARM has a relatively focused field of vision, as shown in Fig 5c, as compared to a relatively scattered one for ViLBERT (see Fig 5d). また、 DisARM は、図 5c に示すように、比較的焦点を絞った視野を持ち、ViLBERT の比較的散在した視野(図 5d 参照)と比較する。 0.72
This suggest a better multimodal modelling capacity for DISARM as compared to ViLBERT. これは、ViLBERTと比較して、disARMのマルチモーダルモデリング能力が優れていることを示唆している。 0.44
6 Conclusion and Future Work 6 結論と今後の課題 0.78
We introduced the novel task of detecting the targeted entities within harmful memes and we highlighted the inherent challenges involved. 有害ミーム内の標的物質を検出する新しいタスクを導入し,本質的な課題を強調した。 0.61
Towards addressing this open-ended task, we extended Harm-P with target entities for each harmful meme. このオープンエンドタスクに対処するために、有害ミーム毎にターゲットエンティティでHarm-Pを拡張した。 0.50
We then proposed a novel multimodal deep neural framework, called DISARM, which uses an adaptation of multimodal low-rank bi-linear pooling-based fusion strategy at different levels of representation abstraction. そこで我々は,多モード低ランク双線形プール方式の融合戦略を表現抽象化の異なるレベルで適用した,disARMと呼ばれる新しい多モード深層ニューラルネットワークを提案する。 0.72
We showed that DISARM outperforms various uni/multi-modal baselines in three different scenarios by 4%, 7%, and 13% increments in terms of macro-F1 score, respectively. その結果,disarmは,マクロf1スコアの点で,それぞれ4%,7%,13%の増分で,異なる3つのシナリオで様々なuni/multi-modalベースラインを上回った。 0.65
Moreover, DISARM achieved a relative error rate reduction of 9% over the best baseline. さらに、disARMは最高のベースラインに対して相対誤差率を9%削減した。 0.72
We further emphasized the utility of different components of DISARM through ablation studies. 我々はさらに、アブレーション研究を通じて、disARMの様々なコンポーネントの有用性を強調した。 0.52
We also elaborated on the generalizability of DISARM, thus confirming its modelling superiority over ViLBERT via interpretability analysis. また, DisARM の一般化性についても詳しく検討し, 解釈可能性解析による ViLBERT のモデル化上の優位性を確認した。 0.55
We finally analysed the shortcomings in DISARM that lead to incorrect harmful target predictions. 最終的に、不正な有害なターゲット予測につながるdisARMの欠点を分析しました。 0.61
In the present work, we made an attempt to elicit some inherent challenges pertaining to the task at hand: augmenting the relevant context, effectively fusing multiple modalities, and pretraining. 本研究では,タスクに固有の課題を浮き彫りにして,関連するコンテキストの強化,複数のモダリティの有効活用,事前学習を行った。 0.58
Yet, we also leave a lot of space for future research for this novel task formulation. しかし、この新しいタスクの定式化の今後の研究には多くのスペースが残されている。 0.64
Ethics and Broader Impact Reproducibility. 倫理とより広い影響の再現性。 0.56
We present detailed hyperparameter configurations in Appendix A and Table 4. Appendix A と Table 4 に詳細なハイパーパラメータ構成を示す。 0.81
The source code, and the dataset ExtHarm-P are available at https://github. ソースコードとデータセット ExtHarm-P はhttps://github.com/で公開されている。 0.62
com/LCS2-IIITD/DISAR M com/lcs2-iiitd/disar m 0.09
User Privacy. ユーザーのプライバシー。 0.75
The information depicted/used does not include any personal information. 表示/使用情報は、個人情報を含まない。 0.81
Copyright aspects are attributed to the dataset source. 著作権の側面はデータセットソースに帰属する。 0.63
Annotation. The annotation was conducted by NLP experts or linguists in India, who were fairly treated and were duly compensated. アノテーション。 このアノテーションは、インドのNLPの専門家や言語学者によって行われた。 0.56
We conducted several discussion sessions to make sure all annotators could understand the distinction between harmful vs. non-harmful referencing. 我々は,アノテータが有害な参照と非有害な参照の区別を確実に理解できるように,いくつかのディスカッションセッションを行った。
訳抜け防止モード: いくつか議論セッションを行いました すべてのアノテータが有害と非有害な参照の区別を理解できるようにします。
0.56
Biases. Any biases found in the dataset are unintentional, and we do not intend to cause harm to any group or individual. バイアス。 データセットに見られるあらゆるバイアスは意図せず、いかなるグループや個人にも害を与えるつもりはありません。 0.66
We acknowledge that detecting harmfulness can be subjective, and thus it is inevitable that there would be biases in our goldlabelled data or in the label distribution. 有害性の検出は主観的であり,ゴールドラベルデータやラベル分布にバイアスがあることは避けられない。
訳抜け防止モード: 我々は有害性の検出が主観的であることを認めている。 したがって、goldlabelledデータやラベル配布にバイアスがあることは避けられない。
0.74
This is addressed by working on a dataset that is created using general keywords about US Politics, and also by following a well-defined schema, which sets explicit definitions for annotation. これは、米国の政治に関する一般的なキーワードを使って作成されたデータセットと、アノテーションの明示的な定義をセットする明確に定義されたスキーマに従うことで対処される。 0.65
Misuse Potential. Our dataset can be potentially used for ill-intended purposes, such as biased targeting of individuals/communit ies/organizations, etc. that may or may not be related to demographics and other information within the text. 誤用の可能性。 当社のデータセットは、テキスト内の人口統計やその他の情報に関連する可能性のある個人やコミュニティ、組織などの偏りのあるターゲティングなど、意図しない目的で使用することが可能です。 0.57
Intervention with human moderation would be required to ensure that this does not occur. 人間のモデレーションによる介入は、これが起こらないことを保証するために必要となる。 0.53
Intended Use. We make use of the existing dataset in our work in line with the intended usage prescribed by its creators and solely for research purposes. 使用される。 私たちは、既存のデータセットを、作成者が意図した使用法と一致して、研究目的のみに使用します。 0.71
This applies in its entirety to its further usage as well. これは、そのさらなる利用にも当てはまる。 0.50
We commit to releasing our dataset aiming to encourage research in studying harmful targeting in memes on the web. Web上の有害なターゲティングの研究を奨励するためのデータセットをリリースすることを約束します。 0.66
We distribute the dataset for research purposes only, without a license for commercial use. 研究目的のみにデータセットを配布するが、商用使用のライセンスはない。 0.73
We believe that it represents a useful resource when used appropriately. 適切に使用すると有用なリソースになると考えています。 0.59
Environmental large-scale models require a lot of computations, which contribute to global warming (Strubell et al , 2019). 環境大規模モデルは、地球温暖化に寄与する多くの計算を必要とする(Strubell et al , 2019)。 0.79
However, in our case, we do not train such models from scratch; rather, we fine-tune them on a relatively small dataset. しかし、私たちの場合、そのようなモデルをスクラッチからトレーニングするのではなく、比較的小さなデータセットで微調整します。 0.68
Impact. Finally, 衝撃 最後に 0.52
英語(論文から抽出)日本語訳スコア
Acknowledgments The work was partially supported by a Wipro research grant, Ramanujan Fellowship, the Infosys Centre for AI, IIIT Delhi, and ihub-Anubhuti-iiitd Foundation, set up under the NM-ICPS scheme of the Department of Science and Technology, India. 承認 この研究は、Wiproの研究助成金、Ramanujan Fellowship、Infosys Centre for AI、IIIT Delhi、ihub-Anubhuti-iiitd Foundationによって部分的に支援された。
訳抜け防止モード: 承認 この研究は、部分的にはウィプロの研究助成金であるラマヌジャン・フェローシップによって支援された。 The Infosys Centre for AI, IIIT Delhi, and ihub - Anubhuti - iiitd Foundation, インド科学技術省のNM-ICPS計画の下で設立された。
0.57
It is also part of the Tanbih mega-project, developed at the Qatar Computing Research Institute, HBKU, which aims to limit the impact of “fake news,” propaganda, and media bias by making users aware of what they are reading, thus promoting media literacy and critical thinking. それはまた、Katar Computing Research Institute(HBKU)で開発されたTanbihのメガプロジェクトの一部でもある。これは“フェイクニュース”やプロパガンダ、メディア偏見の影響を制限することを目的としている。
訳抜け防止モード: また、Katar Computing Research Institute(HBKU)で開発されたTanbih megaプロジェクトの一部でもある。 のプロパガンダの影響を制限することを目的としている。 メディアの偏見は 読者に何を読んでいるかを知らせ メディアのリテラシーと批判的思考を促進する
0.70
References Firoj Alam, Stefano Cresci, Tanmoy Chakraborty, Fabrizio Silvestri, Dimiter Dimitrov, Giovanni Da San Martino, Shaden Shaar, Hamed Firooz, and Preslav Nakov. 参照: Firoj Alam, Stefano Cresci, Tanmoy Chakraborty, Fabrizio Silvestri, Dimiter Dimitrov, Giovanni Da San Martino, Shaden Shaar, Hamed Firooz, Preslav Nakov。
訳抜け防止モード: firoj alam, stefano cresci, tanmoy chakraborty, fabrizio silvestriを参照。 dimiter dimitrov, giovanni da san martino, shaden shaar, hamed firooz, そして、プレスラヴ・ナコフ。
0.58
2021. A Survey on Multimodal Disinformation Detection. 2021. マルチモーダル情報検出に関する調査 0.52
arXiv 2103.12541. arXiv 2103.12541 0.42
Monther Aldwairi and Ali Alwahedi. monther aldwairiとali alwahedi。 0.31
2018. Detecting Fake News in Social Media Networks. 2018. ソーシャルメディア上での偽ニュースの検出。 0.57
Procedia Computer Science, 141:215–222. Procedia Computer Science, 141:215–222。 0.71
Justin Cheng, Michael Bernstein, Cristian DanescuNiculescu-Miz il, and Jure Leskovec. Justin Cheng、Michael Bernstein、Cristian DanescuNiculescu-Miz il、Jure Leskovec。 0.37
2017. Anyone Can Become a Troll: Causes of Trolling Behavior in Online Discussions. 2017. 誰でもトロルになれる:オンライン討論におけるトロール行動の原因。 0.53
In Proceedings of the 2017 ACM Conference on Computer Supported Cooperative Work and Social Computing, CSCW ’17, pages 1217–1230, Portland, Oregon, USA. 2017 acm conference on computer supported collaborative work and social computingの議事録では、cscw ’17, pages 1217–1230, oregon, usa. と題されている。 0.79
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. チョウヒョン・チョ、バート・ファン・メリエンボーア、カグラー・ガルセール、ジミトリー・バーダナウ、フェティ・ブーガレス、ホルガー・シュヴェンク、ヨシュア・ベンジオ。
訳抜け防止モード: キュンヒョンチョ、バート・ファン・メリエンボーア、カグラー・グルセール、ズミトリー・バフダナウ fethi bougares氏、holger schwenk氏、yoshua bengio氏。
0.50
2014. Learning Phrase Representations using RNN Encoder– Decoder for Statistical Machine Translation. 2014. RNNエンコーダ-デコーダを用いた統計的機械翻訳のためのフレーズ表現の学習 0.55
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP ’14, pages 1724–1734, Doha, Qatar. 2014年の自然言語処理における経験的手法に関する会議では、emnlp ’14, pages 1724–1734, doha, qatar が取り上げられた。
訳抜け防止モード: 自然言語処理における実証的手法に関する2014年会議のまとめ EMNLP ’ 14 , page 1724–1734 , Doha , Qatar 。
0.88
Association for Computational Linguistics. Christine Cook, Juliette Schaafsma, and Marjolijn Antheunis. 計算言語学会会員。 Christine Cook、Juliette Schaafsma、Marjolijn Antheunis。 0.58
2018. Under the bridge: An in-depth examination of online trolling in the gaming context. 2018. 橋の下: ゲームコンテキストにおけるオンライントロルの詳細な調査。 0.56
New Media & Society, 20(9):3323–3340. 新メディア・アンド・ソサエティ、20(9):3323-3340。 0.52
PMID: 30581367. pmid: 30581367。 0.41
Abhishek Das, Japsimar Singh Wahi, and Siyao Li. Abhishek Das、Japsimar Singh Wahi、Siyao Li。 0.32
Detecting Hate Speech in Multi-modal マルチモーダルにおけるヘイトスピーチの検出 0.45
2020. Memes. 2020. ミーム。 0.40
arXiv/2012.14891. arXiv/2012.14891。 0.48
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT: 言語理解のための双方向変換器の事前学習。 0.54
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language 計算言語学会北米支部2019年大会紀要 : 人間言語 0.37
Technologies, NAACL-HLT ’19, pages 4171–4186, Minneapolis, Minnesota, USA. テクノロジーズ、naacl-hlt ’19, pages 4171-4186, minneapolis, minnesota, usa。 0.74
Dimitar Dimitrov, Bishr Bin Ali, Shaden Shaar, Firoj Alam, Fabrizio Silvestri, Hamed Firooz, Preslav Nakov, and Giovanni Da San Martino. Dimitar Dimitrov, Bishr Bin Ali, Shaden Shaar, Firoj Alam, Fabrizio Silvestri, Hamed Firooz, Preslav Nakov, Giovanni Da San Martino
訳抜け防止モード: dimitar dimitrov, bishr bin ali, shaden shaar, firoj alam, ファブリツィオ・シルヴェストリ、ハメド・フィロオズ、プレスラヴ・ナコフ、ジョヴァンニ・ダ・サン・マルティノ。
0.50
2021. DeIn Protecting propaganda techniques in memes. 2021. ミームにおけるプロパガンダのテクニックを守るデイン。 0.41
ceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACLIJCNLP ’21, pages 6603–6617. 第59回計算言語学会合同会議と第11回自然言語処理国際合同会議(aclijcnlp ’21, pages 6603–6617)の開催報告 0.57
Alexey Dosovitskiy, アレクセイ・ドソヴィツキー 0.40
Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. ルーカス・ベイヤー、アレクサンダー・コレスニコフ、ディルク・ヴァイセンボルン、シャオワ・ジ、トーマス・ウンターティナー、モスタファ・デハーニ、マティアス・ミンデラー、ゲオルク・ハイゴールド、シルヴァイン・ゲリー、ヤコブ・ウスコライト、ニール・ホルスビー。
訳抜け防止モード: ルーカス・ベイヤー、アレキサンダー・コレスニコフ、ディルク・ヴァイセンボルン、シャオワ・ジイ thomas unterthiner, mostafa dehghani, matthias minderer, georg heigold シルヴァイン・ゲリー、ヤコブ・ウスコライト、ニール・ホールスビー。
0.54
2021. An Image is Worth 16x16 Words: Transformers for Image In Proceedings of the 9th Recognition at scale. 2021. Image is Worth 16x16 Words: Transformers for Image In Proceedings of the 9th Recognition at scale。 0.44
International Conference on Learning Representations, ICLR ’21, Vienna, Austria. international conference on learning representations, iclr ’21, vienna, austria (英語) 0.37
Rafael Ferreira, Rafael Dueire Lins, Steven J. Simske, Fred Freitas, and Marcelo Riss. Rafael Ferreira、Rafael Dueire Lins、Steven J. Simske、Fred Freitas、Marcelo Riss。 0.38
2016. Assessing sentence similarity through lexical, syntactic and semantic analysis. 2016. 語彙・構文・意味分析による文類似性の評価 0.56
Computer Speech & Language, 39:1–28. コンピュータ言語、39:1-28。 0.75
Raul Gomez, Jaume Gibert, Lluis Gomez, and Dimosthenis Karatzas. raul gomez氏、jaume gibert氏、lluis gomez氏、dimosthenis karatzas氏。 0.59
2020. Exploring Hate Speech Detection in Multimodal Publications. 2020. マルチモーダル出版におけるヘイトスピーチ検出の検討 0.53
In Proceedings of the 2020 IEEE Winter Conference on Applications of Computer Vision, WACV ’20, pages 99–1467, Snowmass Village, CO, USA. 2020年のIEEE Winter Conference on Applications of Computer Vision, WACV ’20, page 99–1467, Snowmass Village, CO, USAの成果。
訳抜け防止モード: 2020年ieeeウィンターコンファレンス「コンピュータビジョンの応用」の開催にあたって wacv ’ 20, pages 99–1467, snowmass village, co., usa. (英語)
0.72
Eduardo Graells-Garrido, Ricardo Baeza-Yates, and Mounia Lalmas. Eduardo Graells-Garrido、Ricardo Baeza-Yates、Mounia Lalmas。 0.39
2020. Every Colour You Are: Stance Prediction and Turnaround in Controversial In Proceedings of the 12th ACM ConferIssues. 2020. あらゆる色: 第12回ACM会議の議論におけるスタンス予測とターンアラウンド 0.50
ence on Web Science, WebSci ’20, pages 174–183, Southampton, UK. ence on Web Science, WebSci ’20, page 174–183, Southampton, UK. 0.47
ACM. Momchil Hardalov, Arnav Arora, Preslav Nakov, and Isabelle Augenstein. acm。 Momchil Hardalov、Arnav Arora、Preslav Nakov、Isabelle Augenstein。 0.49
2022. A survey on stance detection for mis- and disinformation identification. 2022. 不正および不正情報同定のための姿勢検出に関する調査 0.55
In Findings of NAACL 2022, Seattle, Washington, USA. 米国ワシントン州シアトルのnaacl 2022で発見された。 0.65
Kimmo Karkkainen and Jungseock Joo. Kimmo KarkkainenとJungseock Joo。 0.39
2021. Fairface: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and MitIn Proceedings of the IEEE/CVF Winigation. 2021. Fairface: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and MitIn Proceedings of the IEEE/CVF Winigation。
訳抜け防止モード: 2021. fairface : face attribute dataset for balanced race, gender, ieee/cvfウィニゲーションのバイアス測定とマイチングの年齢。
0.54
ter Conference on Applications of Computer Vision, WACV ’21, pages 1548–1558. ter conference on applications of computer vision, wacv ’21, pages 1548–1558。 0.42
Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, and Davide Testuggine. Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine 0.33
2019. Supervised Multimodal Bitransformers for Classifying Images and Text. 2019. 画像とテキストの分類のための教師付きマルチモーダルバイコンバータ 0.52
In Proceedings of the NeurIPS Workshop on Visually Grounded Interaction and Language, ViGIL ’19, Vancouver, Canada. In Proceedings of the NeurIPS Workshop on Visually Grounded Interaction and Language, ViGIL ’19, Canada, Vancouver
訳抜け防止モード: NeurIPS Workshop on Visually Grounded Interaction and Language に参加して バンクーバー、カナダ。
0.51
Douwe Kiela, Hamed Firooz, Aravind Mohan, Vedanuj Goswami, Amanpreet Singh, Pratik Ringshia, and Douwe Kiela, Hamed Firooz, Aravind Mohan, Vedanuj Goswami, Amanpreet Singh, Pratik Ringshia 0.37
英語(論文から抽出)日本語訳スコア
The Hateful Memes Davide Testuggine. The Hateful Memes Davide Testuggine(英語) 0.74
2020. Challenge: Detecting Hate Speech in Multimodal In Proceedings of the 34th International Memes. 2020. 課題:第34回国際ミームにおけるマルチモーダルにおけるヘイトスピーチの検出 0.53
Conference on Neural Information Processing Systems, volume 33 of NeurIPS ’20. ニューラル情報処理システム学会第33巻「NeurIPS'20」 0.56
Jin-Hwa Kim, Kyoung Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang. ジン・ホワ・キム、チャン・ウォン・オン、ウーサン・リム、ジュン・キム、ジュン・ウー・ハ、ビョン・タク・チャン。 0.56
2017. Hadamard Product for Low-rank BiIn Proceedings of the 5th Interlinear Pooling. 2017. 第5回インターリニアプール用低ランクBiInプロセッシング用アダマール製品 0.49
national Conference on Learning Representations, ICLR ’17, Toulon, France. 英語) national conference on learning representations, iclr ’17, toulon, france 0.34
Sean MacAvaney, Hao-Ren Yao, Eugene Yang, Katina Russell, Nazli Goharian, and Ophir Frieder. Sean MacAvaney, Hao-Ren Yao, Eugene Yang, Katina Russell, Nazli Goharian, Ophir Frieder 0.39
2019. Hate speech detection: Challenges and solutions. 2019. ヘイトスピーチ検出: 課題と解決策。 0.50
PLOS ONE, 14(8):1–16. PLOS ONE, 14(8):1-16。 0.78
Alexandros Mittos, Savvas Zannettou, Jeremy Blackburn, and Emiliano De Cristofaro. アレクサンドロス・ミットス、サヴァス・ザネトウ、ジェレミー・ブラックバーン、エミリアーノ・デ・クリストファロ。 0.44
2020. “And We Will Fight for Our Race!” 2020. 「そして、我々はレースのために戦います!」 0.59
A Measurement Study of Genetic Testing Conversations on Reddit and 4chan. Redditと4chanにおける遺伝子検査の会話の測定 0.86
In Proceedings of the Fourteenth International AAAI Conference on Web and Social Media, ICWSM ’20, pages 452–463, Atlanta, Georgia, USA. 第14回 aaai conference on web and social media の議事録 icwsm ’20, pages 452–463, atlanta, georgia, usa. (英語)
訳抜け防止モード: 第14回国際AAAI国際ウェブ・ソーシャルメディア会議に参加して ICWSM ’ 20 page 452–463, Atlanta, Georgia, USA.
0.79
Seunghyun Kim, Afsaneh Razi, Gianluca Stringhini, Pamela J. Wisniewski, and Munmun De Choudhury. Sunghyun Kim、Afsaneh Razi、Gianluca Stringhini、Pamela J. Wisniewski、Munmun De Choudhury。 0.74
2021. A Human-Centered Systematic Literature Review of Cyberbullying Detection Algorithms. 2021. サイバーいじめ検出アルゴリズムの人間中心的体系的文献レビュー 0.59
Proceedings ACM Hum. 議事録 acm hum。 0.63
Comput. Interact. Comput 相互作用する。 0.38
, 5(CSCW2):1–34. 5(CSCW2):1-34。 0.69
Van-Hoang Nguyen, Kazunari Sugiyama, Preslav Nakov, and Min-Yen Kan. 2020. バン・ホアン・グエン、杉山一成、プレスラフ・ナコフ、民年鑑2020 0.37
FANG: Leveraging social context for fake news detection using graph representation. FANG: グラフ表現を用いた偽ニュース検出にソーシャルコンテキストを活用する。 0.76
In Proceedings of the 29th ACM International Conference on Information and Knowledge Management, CIKM ’20, pages 1165–1174. 第29回 ACM International Conference on Information and Knowledge Management, CIKM'20, page 1165–1174 に参加して 0.86
Diederik P Kingma and Jimmy Ba. ディーデリック・P・キングマとジミー・バ。 0.40
2015. Adam: A In ProceedMethod for Stochastic Optimization. 2015. Adam: 確率最適化のためのIn ProceedMethod。 0.61
ings of the 3rd International Conference on Learning Representations, ICLR ’15, San Diego, California, USA. 第3回学習表現国際会議(ICLR'15, San Diego, California, USA)に参加して 0.78
Benet Oriol, Cristian Canton-Ferrer, and Xavier Giró i Nieto. ベネ・オリオール、クリスティアン・カントン=フェラー、ザビエル・ジロ・イ・ニート。 0.38
2019. Hate Speech in Pixels: Detection of Offensive Memes towards Automatic Moderation. 2019. ピクセル内のヘイトスピーチ:自動モデレーションに対する攻撃的ミームの検出。 0.55
In Proceedings of the NeurIPS 2019 Workshop on AI for Social Good, Vancouver, Canada. カナダのバンクーバーで開催されたneurips 2019 workshop on ai for social goodの議事録。 0.73
Robin Kowalski, Gary Giumetti, Amber Schroeder, and Micah Lattanner. Robin Kowalski、Gary Giumetti、Amber Schroeder、Micah Lattanner。 0.33
2014. Bullying in the Digital Age: A Critical Review and Meta-Analysis of Cyberbullying Research Among Youth. 2014. デジタル時代のいじめ : 若者の間でのサイバーいじめ研究の批判的レビューとメタ分析 0.60
Psychological bulletin, 140. 心理学誌、140頁。 0.55
Sumeet Kumar and Kathleen Carley. Sumeet KumarとKathleen Carley。 0.37
2019. Tree LSTMs with Convolution Units to Predict Stance and Rumor Veracity in Social Media Conversations. 2019. ソーシャルメディア会話におけるStance and Rumor Veracity予測のための畳み込みユニット付きツリーLSTM 0.60
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, ACL ’19, pages 5047–5058, Florence, Italy. 第57回計算言語学会年次総会(acl ’19, pages 5047–5058)は、イタリアのフィレンツェで開催された。 0.72
Association for Computational Linguistics. Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. 計算言語学会会員。 Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang 0.46
2019. VisualBERT: A Simple and Performant Baseline for Vision and Language. 2019. VisualBERT: 視覚と言語のためのシンプルでパフォーマンスの良いベースライン。 0.57
arXiv:1908.03557. arxiv: 1908.03557。 0.15
Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C Lawrence Zitnick 0.40
2014. Microsoft COCO: Common Objects in Context. 2014. Microsoft COCO: コンテキスト内の共通オブジェクト。 0.62
In Proceedings of the European Conference on Computer Vision, ECCV ’14, pages 740–755, Zurich, Switzerland. 欧州コンピュータビジョン会議の議事録では、eccv ’14, pages 740–755, zurich, swiss。 0.68
Phillip Lippe, Nithin Holla, Shantanu Chandra, Santhosh Rajamanickam, Georgios Antoniou, Ekaterina Shutova, and Helen Yannakoudakis. フィリップ・リッペ、ニシン・ホラ、シャンタヌ・チャンドラ、サントス・ラジャマニッカム、ゲオルギオス・アントニウ、エカテリーナ・シュトヴァ、ヘレン・ヤンコウダキス。 0.50
2020. A Multimodal Framework for the Detection of Hateful Memes. 2020. ヘイトフルミームの検出のためのマルチモーダルフレームワーク。 0.50
arXiv:2012.12871. arXiv:2012.12871。 0.49
Hamed Pirsiavash, Deva Ramanan, and Charless Fowlkes. Hamed Pirsiavash, Deva Ramanan, Charless Fowlkes。 0.34
2009. Bilinear classifiers for visual recognition. 2009. 視覚認識のための双線形分類器 0.55
In Advances in Neural Information Processing Systems: Proceedings of the International Conference on Neural Information Processing Systems, volume 22, pages 1482–1490, Vancouver British Columbia Canada. in advances in neural information processing systems: proceedings of the international conference on neural information processing systems, volume 22, pages 1482–1490, vancouver british columbia canada (英語)
訳抜け防止モード: ニューラル情報処理システムの進歩 : ニューラル情報処理システム国際会議の開催報告 第22巻、1482-1490頁、バンクーバー・ブリティッシュコロンビア・カナダ。
0.69
Curran Associates, Inc. Curran Associates, Inc. 0.42
Shraman Pramanick, Dimitar Dimitrov, Rituparna Mukherjee, Shivam Sharma, Md. Shraman Pramanick, Dimitar Dimitrov, Rituparna Mukherjee, Shivam Sharma, Md 0.38
Shad Akhtar, Preslav Nakov, and Tanmoy Chakraborty. Shad Akhtar、Preslav Nakov、Tanmoy Chakraborty。 0.34
2021a. Detecting Harmful Memes and Their Targets. 2021年。 有害なミームとそのターゲットを検出する。 0.69
In Findings of the Association for Computational Linguistics, ACL-IJCNLP ’21, pages 2783–2796, Bangkok, Thailand. In Findings of the Association for Computational Linguistics, ACL-IJCNLP ’21, page 2783–2796, Thai, Bangkok 0.46
Shraman Pramanick, Shivam Sharma, Dimitar Dimitrov, Md. Shraman Pramanick, Shivam Sharma, Dimitar Dimitrov, Md 0.37
Shad Akhtar, Preslav Nakov, and Tanmoy Chakraborty. Shad Akhtar、Preslav Nakov、Tanmoy Chakraborty。 0.34
2021b. MOMENTA: A Multimodal Framework for Detecting Harmful Memes and Their In Findings of the Association for ComTargets. 2021年。 MOMENTA:ComTargets協会の有害なミームとそれらの発見を検出するマルチモーダルフレームワーク。 0.64
putational Linguistics: EMNLP 2021, EMNLP 21, pages 4439–4455, Punta Cana, Dominican Republic. 英語表記:emnlp 2021, emnlp 21 pages 4439-4455, punta cana, dominican republic。 0.70
Association for Computational Linguistics. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al 2021. 計算言語学会会員。 アレク・ラドフォード、ジョン・ウォック・キム、クリス・ハラシー、アディティヤ・ラメシュ、ガブリエル・ゴー、サンディニ・アガルワル、ジリッシュ・サストリ、アマンダ・サッセル、パメラ・ミシュキン、ジャック・クラーク、アル・2021年。
訳抜け防止モード: 計算言語学会会員。 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell パメラ・ミシュキン、ジャック・クラーク、そして2021年。
0.63
Learning Transferable Visual Models From Natural Language Supervision. 自然言語による伝達可能な視覚モデル学習 0.74
In Proceedings of the 38th International Conference on Machine Learning, ICML ’21, pages 8748–8763. 第38回機械学習国際会議紀要 icml ’21, pages 8748-8763 0.53
Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee 0.32
2019. ViLBERT: Pretraining TaskAgnostic Visiolinguistic Representations for VisionIn Proceedings of the Conand-Language Tasks. 2019. ViLBERT: VisionIn Proceedings of the Conand-Language Tasksにおけるタスク非依存型ビシオ言語表現の事前学習 0.49
ference on Neural Information Processing Systems, NeurIPS ’19, pages 13–23, Vancouver, Canada. Neural Information Processing Systems, NeurIPS ’19, page 13–23, Vancouver, Canada。 0.40
Kunal Relia, Zhengyi Li, Stephanie H. Cook, and Rumi Chunara. Kunal Relia、Zhengyi Li、Stephanie H. Cook、Rumi Chunara。 0.32
2019. Race, Ethnicity and National Origin-Based Discrimination in Social Media and Hate Crimes across 100 U.S. Cities. 2019. ソーシャルメディアとヘイトクライムにおける人種、民族性、民族起源に基づく差別。 0.49
Proceedings of the International AAAI Conference on Web and Social Media, 13(01):417–427. International AAAI Conference on Web and Social Media, 13(01):417-427 に参加。 0.41
英語(論文から抽出)日本語訳スコア
Bárbara Gomes Ribeiro, Manoel Horta Ribeiro, Virgílio A. F. Almeida, and Wagner Meira Jr. 2021. Bárbara Gomes Ribeiro、Manoel Horta Ribeiro、Virgílio A. F. Almeida、Wagner Meira Jr. 2021。 0.42
Follow the Money: Analyzing @slpng_giants_pt’s CoRR, Strategy to Combat Misinformation. お金に従おう:@slpng_giants_ptのcorrを分析して、誤った情報と戦うための戦略。 0.55
abs/2105.07523. abs/2105.07523。 0.45
Vlad Sandulescu. Vlad Sandulescu所属。 0.88
Detecting Hateful Memes Using a Multimodal Deep Ensemble. マルチモーダルディープアンサンブルを用いたヘイトフルミームの検出 0.54
arXiv:2012.13235. arXiv:2012.13235。 0.24
2020. Morgan Klaus Scheuerman, Jialun Aaron Jiang, Casey Fiesler, and Jed R. Brubaker. 2020. Morgan Klaus Scheuerman, Jialun Aaron Jiang, Casey Fiesler, Jed R. Brubaker 0.40
2021. A Framework of Severity for Harmful Content Online. 2021. A Framework of Severity for Harmful Content Online (英語) 0.60
Proceedings ACM Hum. 議事録 acm hum。 0.63
-Comput. Interact. -計算。 相互作用する。 0.38
, 5(CSCW2). 5(cscw2)であった。 0.54
Shaden Shaar, Firoj Alam, Giovanni Da San Martino, and Preslav Nakov. シェーダン・シャール、フィロジ・アラム、ジョヴァンニ・ダ・サン・マルティーノ、プレスラヴ・ナコフ。 0.35
2022. The role of context in detecting previously fact-checked claims. 2022. 事実確認されたクレームの検出におけるコンテキストの役割。 0.50
In Findings of the Association for Computational Linguistics: NAACL-HLT 2022, NAACL-HLT ’22, Seattle, Washington, USA. 米国ワシントン州シアトルのnaacl-hlt 2022, naacl-hlt ’22。
訳抜け防止モード: 計算言語学会の発見 : NAACL - HLT 2022 NAACL - HLT ’ 22 シアトル - アメリカ合衆国ワシントン州シアトル。
0.65
Lanyu Shang, Christina Youn, Yuheng Zha, Yang Zhang, and Dong Wang. lanyu shang、christina youn、yuheng zha、yang zhang、そしてdong wangだ。 0.58
2021a. KnowMeme: A Knowledge-enriched Graph Neural Network Solution to Offensive Meme Detection. 2021年。 KnowMeme: 攻撃的ミーム検出のための知識豊富なグラフニューラルネットワークソリューション。 0.76
In Proceedings of the 2021 IEEE 17th International Conference on eScience, eScience ’21, pages 186–195. 第17回電子科学国際会議(ieee 17th international conference on escience)第186-195頁。
訳抜け防止モード: 2021年IEEE 17th International Conference on eScience に参加して eScience ’ 21 , page 186–195 である。
0.82
Lanyu Shang, Yang Zhang, Yuheng Zha, Yingxi Chen, Christina Youn, and Dong Wang. Lanyu Shang, Yang Zhang, Yuheng Zha, Yingxi Chen, Christina Youn, Dong Wang 0.34
2021b. AOMD: An Analogy-aware Approach to Offensive Meme Detection on Social Media. 2021年。 AOMD:ソーシャルメディアにおける攻撃的ミーム検出のためのアナロジー対応アプローチ 0.70
Information Processing & Management, 58(5):102664. 情報処理・管理 58(5):102664。 0.71
Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. ピユシュ・シャーマ、ナン・ディン、セバスチャン・グッドマン、ラドゥ・ソリカット。 0.45
2018. Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning. 2018. 概念キャプション:自動キャプションのためのクリーンでハイパーnymedな画像alt-textデータセット。 0.58
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL ’18, pages 2556–2565, Melbourne, Australia. 第56回計算言語学会年次総会(acl ’18, pages 2556–2565, australia)は、オーストラリアのメルボルンで開催された。 0.64
Shivam Sharma, Firoj Alam, Md. Shivam Sharma, Firoj Alam, Md 0.35
Shad Akhtar, Dimitar Dimitrov, Giovanni Da San Martino, Hamed Firooz, Alon Halevy, Fabrizio Silvestri, Preslav Nakov, and Tanmoy Chakraborty. Shad Akhtar, Dimitar Dimitrov, Giovanni Da San Martino, Hamed Firooz, Alon Halevy, Fabrizio Silvestri, Preslav Nakov, Tanmoy Chakraborty 0.36
2022. Detecting and UnIn Proderstanding Harmful Memes: A Survey. 2022. 有害なミームの検出と排除:調査 0.46
ceedings of the 31st International Joint Conference on Artificial Intelligence, IJCAI-ECAI ’22, Vienna, Austria. 第31回人工知能国際会議(IJCAI-ECAI'22)に参加。 0.52
Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, and Huan Liu. カイ・シュ、エイミー・スリヴァ、スハン・ワン、ジリアン・タン、フアン・リウ。 0.36
2017. Fake News Detection on Social Media: A Data Mining Perspective. 2017. ソーシャルメディアにおける偽ニュース検出:データマイニングの観点から 0.63
SIGKDD Explor. SIGKDD 探索。 0.58
Newsl. , 19(1):22–36. ニュースだ , 19(1):22–36. 0.52
Karen Simonyan and Andrew Zisserman. カレン・シモンヤンとアンドリュー・ジッセルマン 0.57
2015. Very Deep Convolutional Networks for Large-Scale Imthe Interage Recognition. 2015. 大規模Imthe Interage認識のための深層畳み込みネットワーク 0.59
national Conference on Learning Representations, ICLR ’15, San Diego, California, USA. ICLR ’15, San Diego, California, USA. “National Conference on Learning Representations, ICLR ’15”. アメリカ, サンディエゴ。 0.66
In Proceedings of Emma Strubell, Ananya Ganesh, and Andrew McCallum. 訴訟の手続において エマ・ストルベル、アナニア・ガネッシュ、アンドリュー・マケラム。 0.41
2019. Energy and Policy Considerations for Deep Learning in NLP. 2019. NLPにおける深層学習のためのエネルギー・政策考察 0.62
In Proceedings of the 57th 第57条の手続において 0.64
Annual Meeting of the Association for Computational Linguistics, ACL ’19, pages 3645–3650, Florence, Italy. 計算言語学会年次総会 acl ’19, pages 3645–3650, florence, italian. 0.64
Shardul Suryawanshi, Bharathi Raja Chakravarthi, Mihael Arcan, and Paul Buitelaar. Shardul Suryawanshi、Bharathi Raja Chakravarthi、Mihael Arcan、Paul Buitelaar。 0.65
2020. Multimodal Meme Dataset (MultiOFF) for Identifying Offensive Content in Image and Text. 2020. 画像およびテキスト中の不快コンテンツを特定するためのマルチモーダルミームデータセット(マルチオフ)。 0.61
In Proceedings of the Second Workshop on Trolling, Aggression and Cyberbullying, pages 32–41, Marseille, France. 第2回トロリング、攻撃、サイバーいじめに関するワークショップの議事録、32-41ページ、マルセイユ、フランス。
訳抜け防止モード: The Second Workshop on Trolling, Aggression and Cyberbullying に参加して 32-41頁、フランス、マルセイユ。
0.73
European Language Resources Assoc. ヨーロッパの言語資源。 0.67
(ELRA). Yuping Wang, Fatemeh Tahmasbi, Jeremy Blackburn, Barry Bradlyn, Emiliano De Cristofaro, David Magerman, Savvas Zannettou, and Gianluca Stringhini. (elra)。 Yuping Wang, Fatemeh Tahmasbi, Jeremy Blackburn, Barry Bradlyn, Emiliano De Cristofaro, David Magerman, Savvas Zannettou, Gianluca Stringhini 0.44
2021. Understanding the Use of Fauxtography on Social Media. 2021. ソーシャルメディア上でのfauxtographyの利用を理解すること。 0.52
Proceedings of the International AAAI Conference on Web and Social Media, 15(1):776–786. International AAAI Conference on Web and Social Media, 15(1):776-786 に参加。 0.87
Liang Wu and Huan Liu. liang wuとhuan liuだ。 0.61
2018. Tracing Fake-News Footprints: Characterizing Social Media Messages In Proceedings of the by How They Propagate. 2018. Fake-Newsのフットプリントの追跡: ソーシャルメディアのメッセージの特徴をいかにプロパゲートするか 0.58
Eleventh ACM International Conference on Web Search and Data Mining, WSDM ’18, pages 637– 645, Marina Del Rey, CA, USA. 第11回 acm international conference on web search and data mining, wsdm ’18, pages 637–645, marina del rey, ca, usa (英語)
訳抜け防止モード: 第11回 ACM International Conference on Web Search and Data Mining, WSDM' 18 637 – 645, Marina Del Rey, CA, USA. (英語)
0.88
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le. Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Russ R Salakhutdinov、Quoc V Le。 0.33
2019. XLNet: Generalized Autoregressive Pretraining for In Advances in NeuLanguage Understanding. 2019. XLNet: NeuLanguage Understandingにおける進歩のための一般化された自己回帰事前訓練。 0.52
ral Information Processing Systems, volume 32 of NIPS ’19, Vancouver, BC, Canada. ral Information Processing Systems, Volume 32 of NIPS ’19, Vancouver, BC, Canada 0.38
Marcos Zampieri, Preslav Nakov, Sara Rosenthal, Pepa Atanasova, Georgi Karadzhov, Hamdy Mubarak, Leon Derczynski, Zeses Pitenis, and Ça˘grı Çöltekin. Marcos Zampieri、Preslav Nakov、Sara Rosenthal、Pepa Atanasova、Georgi Karadzhov、Hamdy Mubarak、Leon Derczynski、Zeses Pitenis、Sara Rosenthal。
訳抜け防止モード: Marcos Zampieri, Preslav Nakov, Sara Rosenthal, Pepa Atanasova Georgi Karadzhov, Hamdy Mubarak, Leon Derczynski, Zeses Pitenis と、彼は言った。
0.81
2020. SemEval-2020 task 12: Multilingual offensive language identification in social media (OfIn Proceedings of the Fourteenth fensEval 2020). 2020. SemEval-2020 Task 12: ソーシャルメディアにおける多言語攻撃言語識別(OfIn Proceedings of the 14th fensEval 2020) 0.62
Workshop on Semantic Evaluation, SemEval ’20, pages 1425–1447, Barcelona (online). セマンティック評価ワークショップ, SemEval ’20, page 1425–1447, Barcelona (オンライン) 0.71
International Committee for Computational Linguistics. 計算言語学国際委員会委員。 0.69
Ziqi Zhang and Lei Luo. Ziqi ZhangとLei Luo。 0.38
2019. Hate Speech Detection: A Solved Problem? 2019. ヘイトスピーチ検出:解決した問題? 0.51
The Challenging Case of Long Tail on Twitter. TwitterでLong Tailの悩みの種。 0.59
Semantic Web, 10(5):925–945. セマンティクスウェブ、10(5):925-945。 0.78
Xiayu Zhong. xiayu zhong氏。 0.55
2020. Classification of Multimodal Hate Speech – The Winning Solution of Hateful Memes Challenge. 2020. マルチモーダルヘイトスピーチの分類 - ヘイトフルミームチャレンジの勝利のソリューション。 0.53
arXiv e-prints. arXiv e-prints。 0.72
Kaimin Zhou, Chang Shu, Binyang Li, and Jey Han In ProceedLau. 周海民、チャン・シュー、李備陽、ハン・イン・プログラウ。 0.39
2019. Early Rumour Detection. 2019. 初期のRumour Detection。 0.59
ings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACLHLT ’19, pages 1614–1623, Minneapolis, Minnesota, USA. ings of the 2019 conference of the north american chapter of the association for computational linguistics: human language technologies, naaclhlt ’19, pages 1614–1623, minneapolis, minnesota, usa (英語)
訳抜け防止モード: 計算言語学会北米支部2019年大会報告 : ヒューマン・ランゲージ・テクノロジー NAACLHLT ’19 page 1614–1623, Minneapolis, Minnesota, USA.
0.54
Association for Computational Linguistics. Yi Zhou, Zhenhao Chen, and Huiyuan Yang. 計算言語学会会員。 Yi Zhou, Zhenhao Chen, Huiyuan Yang。 0.43
2021. Multimodal Learning for Hateful Memes DetecIn Proceedings of the 2021 IEEE Internation. 2021. 2021年IEEEインターネイションにおけるHateful Memes DetecInのマルチモーダル学習 0.57
tional Conference on Multimedia & Expo Workshops, ICMEW ’21, pages 1–6, Shenzhen, China. International Conference on Multimedia & Expo Workshops, ICMEW ’21, page 1-6, Shenzhen, China 0.41
英語(論文から抽出)日本語訳スコア
Appendix B Ablation Study 付録 bアブレーション研究 0.62
A Implementation Details and Hyper-parameter Values 実装概要と課題 ハイパーパラメータ値 0.61
We trained all our models using PyTorch on NVIDIA Tesla V100 GPU, with 32 GB dedicated memory, CUDA-11.2 and cuDNN-8.1.1 For the unimodal models, we iminstalled. NVIDIA Tesla V100 GPU上でPyTorchを使用して、32GBの専用メモリ、CUDA-11.2、cuDNN-8.1.1をトレーニングしました。 0.67
ported all the pre-trained weights from the TORCHVISION.MODELS8, a sub-package of the PyTorch framework. TORCHVISION.MODELS8はPyTorchフレームワークのサブパッケージである。 0.43
We initialized the remaining weights randomly using a zero-mean Gaussian distribution with a standard deviation of 0.02. 標準偏差0.02の零平均ガウス分布を用いて, 残重みをランダムに初期化した。 0.76
We train DISARM in a setup considering only harmful class data from Harm-P (Pramanick et al , 2021b). harm-p(pramanick et al , 2021b)の有害なクラスデータのみを考慮し, 武装解除訓練を行った。 0.60
We extended it by manually annotating for harmful targets, followed by including non-harmful examples using automated entity extraction (textual and visual) strategies for training/validation splits and manual annotation (for both harmful and nonharmful) for the test split. 有害なターゲットを手動でアノテートし、その後、トレーニング/検証のための自動エンティティ抽出(テキストとビジュアル)戦略とテスト分割のための手動アノテーション(有害と非有害の両方)を使用した非調和な例を含むことで拡張しました。 0.69
When training our models and exploring various values for the different model hyperparameters, we experimented with using the Adam optimizer (Kingma and Ba, 2015) with a learning rate of 1e−4, a weight decay of 1e−5, and a Binary Cross-Entropy (BCE) loss as the objective function. モデルのトレーニングや,異なるモデルハイパーパラメータのさまざまな値の探索では,AdamOptimator (Kingma and Ba, 2015) を用いて1e−4の学習率,1e−5の重み崩壊,BCE損失を目標関数として実験を行った。 0.80
We extensively fine-tuned our experimental setups based upon different architectural requirements to select the best hyper-parameter values. 最適なハイパーパラメータ値を選択するために、異なるアーキテクチャ要求に基づいて実験的な設定を広範囲に微調整しました。 0.57
We also used early stopping for saving the best intermediate checkpoints. 最高の中間チェックポイントの保存には、早期停止も使用しました。 0.57
Table 4 gives more detail about the hyper-parameters we used for training. 表4は私たちがトレーニングに使ったハイパーパラメータの詳細を示しています。 0.64
On average, it took approximately 2.5 hours to train a multi-modal neural model. 平均して、マルチモーダルニューラルモデルのトレーニングに約2.5時間かかった。 0.73
UM MM GRU XLNet VGG16 ViT MMFT MMBT ViLBERT* V-BERT* DISARM UM MM gru xlnet vgg16 vit mmft mmbt vilbert* v-bert* 武装解除 0.45
BS #Epochs 32 16 32 16 16 16 16 16 16 BS #Epochs 32 16 32 16 16 16 16 16 16 0.42
25 20 25 20 20 20 10 10 30 25 20 25 20 20 20 10 10 30 0.42
LR 0.0001 0.0001 0.0001 0.0001 0.001 0.001 0.001 0.001 0.0001 LR 0.0001 0.0001 0.0001 0.0001 0.001 0.001 0.001 0.001 0.0001 0.32
V-Enc - VGG16 V‐Enc - VGG16 0.37
vit T-Enc bert xlnet ヴィット T-Enc bert xlnet 0.42
- ResNet-152 bert ResNet-152 bert Faster RCNN bert Faster RCNN bert bert - ResNet-152 bert ResNet-152 bert Faster RCNN bert Faster RCNN bert bert 0.43
vit #Param 2M 116M 117M 86M 170M 169M 112M 247M 111M ヴィット #パラム 2M 116M 117M 86M 170M 169M 1112M 247M 111M 0.45
[BS→Batch Hyperparameters V/T-Enc→Vision/TextLR→Learning Rate; vit→vit-base-patch16-224 -in21k; BS→バッチハイパーパラメータV/T-Enc→Vision/TextLR→学習率、vit→vit-base-patch16-224 -in21k 0.27
Table 4: Size; Encoder; bert:→bert-base-uncased; xlnet→xlnet-base-uncased]. 表4: サイズ、エンコーダ; bert:→bert-base-uncased; xlnet→xlnet-base-uncased]。 0.66
summary. 8http://pytorch.org/ docs/stable/ 概要 8http://pytorch.org/ docs/stable/ 0.23
torchvision/models.h tml torchvision/models.h tml 0.20
In this section, we present some ablation studies for sub-modules of DISARM based on CE, EH, CT, and CI, examined in isolation and in combinations, and finally for DISARM using CMM. 本稿では, CE, EH, CT, CI をベースとした DisARM のサブモジュールに対するアブレーション研究を行い, 分離および組み合わせ, そして最後に CMM を用いた DISARM について検討する。 0.88
B.1 Test Set A B.1 テストセットA 0.54
As observed in the comparisons made with the other baseline systems for the Test Set A in Table 2, the overall range of the F1 scores is relatively higher with the lowest value being 0.66 for XLNet (text-only) model. 表2におけるテストセットAの他のベースラインシステムとの比較で見られるように、F1スコアの全体範囲は比較的高く、XLNet(テキストのみ)モデルの最低値は0.66である。 0.78
The results for unimodal systems, as can be observed in Table 5, is satisfactory with values of 0.74, 0.73, and 0.77 for CE EH, and CI unimodal systems, respectively. 表5で見られるような単調系の結果は、CE EHの0.74、0.73、0.77、CI単調系の0.77と良好である。
訳抜け防止モード: 表5に示すように,ユニモーダルシステムの結果について考察する。 ce eh と ci のユニモーダル系はそれぞれ 0.74, 0.73, 0.77 の値で満足できる。
0.66
For multimodal systems, we can observe distinct lead for the MMLRBP-based fusion strategy, for both CE and EH systems over the concatenation-based approach, except for EH’s recall drop by 7%. マルチモーダルシステムでは,EMHのリコールが7%減少する以外は,CE系とEH系の両方において,MMLRBPベースの融合戦略の異なるリードを観察できる。 0.75
Finally DISARM yields the best overall F1 score of 0.78. 最終的に DisARM は F1 のスコアが 0.78 である。 0.61
B.2 Test Set B B.2 テストセットB 0.54
With context not having any harmfulness cues for a given meme when considered in isolation, the unimodal CE module performs the worst with 0.48 F1 score, and 0.07 recall for the harmful class, in the open-ended setting of Test Set B. In contrast, EH yields an impressive F1 score of 0.55, and a harmful recall of 0.41. 一方、単調CEモジュールは、所定のミームに対して有害な手がかりを持たず、テストセットBのオープンエンド設定において、最悪の0.48F1スコアと0.07リコールを行い、EHは印象的なF1スコアが0.55、有害リコールが0.41となる。 0.65
This relative gain of 7% in terms of F1 score could be due to the presence of explicit harmfulness cues. F1スコアの相対的な7%の上昇は、明らかな有害な手がかりの存在による可能性がある。 0.65
The complementary effect of considering contextual information can be inferred from the joint modeling of CE and EH, to obtained CT, that enhances the F1 score and the harmful recall by 2% and 3%, respectively (see Table 5). コンテクスト情報の考慮による補完効果は、それぞれf1スコアと有害リコールを2%および3%向上させるctへのceとehの合同モデリングから推測できる(表5参照)。
訳抜け防止モード: CEとEHの合同モデリングから文脈情報を考慮した補完効果を推定できる。 得られたCTに対して、F1スコアと有害リコールをそれぞれ2%、3%向上させる(表5参照)。
0.58
Unimodal assessment of CI performs moderately with an F1 score of 0.51, but with a poor harmful recall of 0.15. CIの単調な評価はF1スコア0.51で適度に実行されるが、有害なリコール0.15では低い。
訳抜け防止モード: CIの単調な評価はF1スコア0.51で適度に行う。 しかし0.15の 有害なリコールで
0.69
MMLRBP, towards joint-modeling of CE and CI yields a significant boost in the harmful recall to 0.52 (see Table 5). MMLRBPはCEとCIの共同モデリングに向けて、有害なリコールを0.52に向上させる(表5参照)。 0.69
On the other hand, MMLRBP-based fusion of EH and CI yields 0.54 F1 score, which is 1% below that for the unimodal EH system. 一方、MMLRBPをベースとしたEHとCIの融合は0.54F1のスコアを得る。
訳抜け防止モード: 一方、MMLRBPをベースとしたEHとCIの融合は0.54F1のスコアを得る。 これは、単調なEHシステムでは1%以下である。
0.54
This emphasizes the importance of accurately modeling the embedded harmfulness, besides augmenting with additional context. これは、組み込みの有害性を正確にモデル化することの重要性を強調し、追加のコンテキストを追加する。
訳抜け防止モード: これは重要性を強調する 組み込まれた有害度を正確にモデル化する 追加の文脈で拡張する
0.72
A complementary impact of CE, EH, and CI is observed for DISARM with a balanced F1 score of 0.6 and a competitive harmful recall value of 0.69. DISARMではCE、EH、CIの相補的な影響が観察され、バランスの取れたF1スコアは0.6で、競合する有害なリコール値は0.69である。 0.52
英語(論文から抽出)日本語訳スコア
Approach CE EH CI CE + EH CE + CI (concat) CE + CI (MMLRBP) EH + CI (concat) EH + CI (MMLRBP) DISARM アプローチ CE EH CI CE + EH CE + CI (concat) CE + CI (MMLRBP) EH + CI (concat) EH + CI (MMLRBP) DisARM 0.58
F1 0.7411 0.7250 0.7729 0.7406 0.7361 0.7790 0.6609 0.7260 0.7845 F1 0.7411 0.7250 0.7729 0.7406 0.7361 0.7790 0.6609 0.7260 0.7845 0.50
Test Set A Not-harmful Harmful R P 0.71 0.71 0.79 0.75 0.73 0.74 0.71 0.7 0.7 0.71 0.72 0.74 0.72 0.67 0.78 0.74 0.86 0.74 テストセットA Not-harmful Harmful R P 0.71 0.71 0.79 0.75 0.73 0.74 0.71 0.7 0.7 0.71 0.72 0.74 0.72 0.67 0.78 0.74 0.86 0.74 0.51
P 0.77 0.71 0.81 0.78 0.77 0.83 0.66 0.72 0.74 P 0.77 0.71 0.81 0.78 0.77 0.83 0.66 0.72 0.74 0.22
R 0.78 0.66 0.82 0.78 0.77 0.84 0.6 0.67 0.81 R 0.78 0.66 0.82 0.78 0.77 0.84 0.6 0.67 0.81 0.22
F1 0.4847 0.5544 0.5174 0.5775 0.4230 0.5079 0.4964 0.5470 0.6498 F1 0.4847 0.5544 0.5174 0.5775 0.4230 0.5079 0.4964 0.5470 0.6498 0.50
Test Set B Not-harmful Harmful R P 0.07 0.78 0.41 0.81 0.15 0.79 0.82 0.44 0.37 0.74 0.52 0.81 0.37 0.78 0.37 0.8 0.83 0.69 テストセットB Not-harmful Harmful R P 0.07 0.78 0.41 0.81 0.15 0.79 0.82 0.44 0.37 0.74 0.52 0.81 0.37 0.78 0.37 0.8 0.83 0.69 0.50
P 0.29 0.3 0.29 0.33 0.18 0.26 0.23 0.29 0.38 P 0.29 0.3 0.29 0.33 0.18 0.26 0.23 0.29 0.38 0.22
R 0.95 0.72 0.89 0.74 0.51 0.57 0.65 0.74 0.79 R 0.95 0.72 0.89 0.74 0.51 0.57 0.65 0.74 0.79 0.22
F1 0.4829 0.5658 0.5314 0.5840 0.4125 0.4857 0.4421 0.4836 0.6412 F1 0.4829 0.5658 0.5314 0.5840 0.4125 0.4857 0.4421 0.4836 0.6412 0.50
Test Set C Not-harmful Harmful R P 0.06 0.83 0.56 0.88 0.19 0.84 0.89 0.57 0.56 0.82 0.69 0.88 0.38 0.81 0.31 0.83 0.7 0.86 テストセットC Not-harmful Harmful R P 0.06 0.83 0.56 0.88 0.19 0.84 0.89 0.57 0.56 0.82 0.69 0.88 0.38 0.81 0.31 0.83 0.7 0.86 0.49
R 0.93 0.68 0.87 0.7 0.43 0.5 0.57 0.68 0.76 R 0.93 0.68 0.87 0.7 0.43 0.5 0.57 0.68 0.76 0.22
P 0.17 0.27 0.23 0.29 0.17 0.22 0.15 0.17 0.36 P 0.17 0.27 0.23 0.29 0.17 0.22 0.15 0.17 0.36 0.22
Table 5: Ablation results for DISARM and its variants for Test Sets A, B, and C. 表5: DisARM とそのテストセット A, B, C の変種に対するアブレーション結果。 0.71
B.3 Test Set C As observed in the previous scenario, the unimodal models for CE yield a low F1 score of 0.48 and the worst harmful recall value of 0.06. b.3 前回のシナリオで見られたテスト集合 c では、ce のユニモーダルモデルは、低い f1 スコア 0.48 と最悪の有害なリコール値 0.06 を生成する。 0.59
Much better performance is observed for unimodal setups including EH, and its joint modelling with CE with improved F1 scores of 0.56 and 0.58, respectively, along with the harmful recall score of 0.56 and 0.57, respectively. ehやceとのジョイント・モデリング、改良f1スコア0.56と0.58、有害リコールスコア0.56と0.57といったユニモーダル・セットアップでは、より優れたパフォーマンスが観察される。 0.58
CI based unimodal evaluation again yields a moderate F1 score of 0.53 (see Table 5), along with a poor harmful recall of 0.19, which shows its inadequacy to model harmful targeting on its own. CIに基づく単調な評価では、中程度のF1スコアは0.53(表5参照)となり、有害なリコールは0.19で、それ自体で有害なターゲティングをモデル化するには不十分である。
訳抜け防止モード: CIに基づく単調評価は、再び適度なF1スコアが0.53となる (表5参照) 0.19の 有害なリコールと共に 有害なターゲティングを モデル化するには不十分です
0.83
For multimodal setups, the joint modelling of CE and CI benefits from MMLRBP based fusion, yielding a gain of 7% and 13% in terms of F1 score and harmful recall, respectively. マルチモーダル・セットアップでは, CEとCIのジョイント・モデリングはMMLRBPをベースとした融合により恩恵を受け, F1スコアと有害リコールでは7%, 13%の上昇を示した。 0.71
This confirms the importance of contextual multimodal semantic alignment. これは文脈的マルチモーダルセマンティクスアライメントの重要性を確認する。 0.73
Correspondingly, joint multimodal modelling of EH and CI regresses the unimodal affinity within the EH. それに対応して、EHとCIの結合多モードモデリングは、EH内の一様親和性を抑圧する。 0.45
Finally, DISARM outperforms all other systems in this category with the best F1 score of 0.64, with a decent harmful recall score of 0.7. 最終的に、disARMはこのカテゴリーの他のシステムで最高のF1スコアが0.64であり、有害なリコールスコアが0.7である。 0.66
The experimental results here are for comparison and analysis of the optimal set of design and baseline choices. 実験結果は,最適設計集合と基準選択集合の比較と解析を目的としている。 0.84
We should note that we performed extensive experiments as part of our preliminary investigation, with different contextual modelling strategies, attention mechanisms, modelling choices, etc., to reach a conclusive architectural configuration that show promise for addressing the task of target detection in harmful memes. 有害なミームでターゲット検出のタスクに対処する可能性を示す決定的なアーキテクチャ構成に到達するために、さまざまなコンテキストモデリング戦略、注意メカニズム、モデリング選択などを含む、予備的な調査の一環として広範な実験を行ったことに留意すべきです。 0.72
C Error Analysis It is evident from the results shown in Tables 2 and 3 that DISARM still has shortcomings. C エラー解析 表 2 と 3 で示されている結果から、 DisARM にはまだ欠点があることは明らかである。 0.69
Examples like the one shown in Fig 6 are seemingly harmless, both textually and visually, but imply serious harm to a person of color in an implicit way. 図6に示されているような例は、テキストと視覚の両方で無害に見えるが、暗黙の方法で有色人種に深刻な害を与える。 0.77
(b) CLIP MM-AT- (b)クリップ MM-AT- 0.43
(c) DISARM V-AT- (c)disARM V-AT 0.31
(a) L-AT (d) ViLBERT Target Candidate→person of color Context→During the evening of the VP debates, Joe Biden settled down on his soft couch with a glass of warm milk to watch this. (a)L-AT (d) vilbert target candidate→person of color context→d the evening of the vp debatesの中で、joe bidenは温かいミルクを飲みながらソファーに落ち着いた。 0.54
V-AT- Figure 6: Comparison of attention maps for miclassification between DISARM [ V-AT 図6: 武装解除のためのアテンションマップの比較 [in japanese] 0.42
(a), (b) & (c)] and ViLBERT [ (a) (b)& (c) と ViLBERT [ 0.45
(d)] using BertViz and Grad-CAM. (d) BertViz と Grad-CAM を使用する。 0.84
This kind of complexity can be challenging to model without providing additional context about the meme like people of colour face racial discrimination all over the world. この種の複雑さは、世界中の人種差別に直面している色の人々のようなミームに関する追加のコンテキストを提供することなく、モデル化するのは難しい。
訳抜け防止モード: この種の複雑さはモデルなしでは難しい 世界中の人種差別に直面している色の人々のような ミームに関する追加の文脈を提供する
0.73
This is also analogous to a fundamental challenge associated with detecting implicit hate (MacAvaney et al , 2019). これはまた、暗黙の憎悪を検出する基本的な課題(MacAvaney et al , 2019)に類似している。 0.72
In this particular example, despite modelling contextual information explicitly in DISARM, it misclassifies this meme anyway. この例では、disARMで明示的にコンテキスト情報をモデル化しているにもかかわらず、このミームを誤って分類している。 0.46
英語(論文から抽出)日本語訳スコア
(a) Harmful analogy (b) Sensitive visuals (a)有害な類推 (b)敏感な視覚 0.35
(c) Political grounds (d) Religious grounds (c)政治的根拠 (d)宗教的根拠 0.44
(e) International threat Figure 7: Examples of memes depicting different types (a)–(e) of harmful targeting. a)国際的脅威 図7: 有害な標的の異なるタイプ(a)–(e)を描いたミームの例。 0.78
Even though the context obtained for this meme pertains to its content (see Fig 6), it does not relate to global racial prejudice, which is key to ascertaining it as a harmfully targeting meme. このミームで得られた文脈は、その内容に関連しているが(図6参照)、世界的人種偏見とは無関係であり、有害な標的ミームであると確認するための鍵である。 0.51
Moreover, besides context, visuals and the message embedded within the meme do not convey definite harm when considered in isolation. さらに、コンテキスト、視覚、およびミーム内に埋め込まれたメッセージは、孤立して考えると明確な害を伝達しない。 0.63
This error can be inferred clearly from the embeddedharmfulness, contextualised-visua ls, and the visuals being attended by DISARM as depicted in Fig. 6a, Fig 6b, and Fig 6c, respectively. この誤差は、それぞれ図6a、図6b、図6cに示すように、組込みハーモフルネス、文脈化された視覚、および DisARM が出席する視覚から明確に推測することができる。 0.64
On the other hand, as shown in the visual attention plot for ViLBERT in Fig 6d, the field of view that is being attended encompasses the visuals of Kamala Harris, who is the person of colour that i sbeing primarily targeted by the meme. 一方、図 6d の ViLBERT の視覚的注意プロットに示されているように、参加している視野は、私が主にミームを狙った色人であるカマラ・ハリスの視覚を包含している。 0.59
Besides the distinct attention on the primary target-candidate within the meme, ViLBERT could have leveraged the pre-training it received from Conceptual Captions (CC) (Sharma et al , 2018), a dataset known for its diverse coverage of complex textual descriptions. ミーム内の主要なターゲット候補に対する明確な注意に加えて、ViLBERTは複雑なテキスト記述の多様なカバレッジで知られるデータセットであるConceptual Captions (CC) (Sharma et al , 2018)から受け取った事前訓練を活用することができた。 0.72
This essentially highlights the importance of making use of multimodal pre-training using the dataset that is not as generic as MS COCO (Lin et al , 2014), but facilitates modelling of the complex real-world multimodal information, especially for tasks related to memes. これは本質的にMS COCO(Lin et al , 2014)ほど一般的ではないが、特にミームに関連するタスクにおいて、複雑な実世界のマルチモーダル情報のモデリングを容易にするデータセットを使用したマルチモーダル事前トレーニングを使用することの重要性を強調している。 0.67
D Annotation Guidelines D アノテーションガイドライン 0.73
Before discussing some details about the annotation process, revisiting the definition of harmful memes would set the pretext towards consideration of harmful targeting and non-harmful referencing. アノテーションプロセスの詳細を議論する前に、有害なミームの定義を再検討することで、有害なターゲティングと非有害な参照を考慮に入れることができる。 0.61
According to Pramanick et al (2021b), a harm can be expressed as an abuse, an offence, a disrespect, an insult, or an insinuation of a targeted entity or any socio-cultural or political ideology, belief, principle, or doctrine associated with that entity. pramanick et al (2021b) によれば、危害は、その団体に関連する社会文化的または政治的イデオロギー、信念、原則、または教義に対する虐待、犯罪、軽視、侮辱、または否定として表現できる。 0.61
The harm can also be in the form of a more subtle attack such as mocking or ridiculing a person or an idea. この危害は、人やアイデアをあざ笑ったり笑ったりするような、より微妙な攻撃の形でも起こり得る。 0.62
Another common understanding9,10,11 about the harmful content is that it could be anything online that causes distress. 有害なコンテンツに関する他の一般的な理解9,10,11は、オンライン上で苦痛を引き起こすものは何でもある、ということです。 0.45
It is an extremely subjective phenomenon, wherein what maybe be harmful to some might not be considered an issue by others. 非常に主観的な現象であり、一部の人にとって有害なものは、他人によって問題とはみなされないかもしれない。
訳抜け防止モード: 極めて主観的な現象であり、そこでは 有害なものは 他人の問題とは 思えないかもしれません
0.74
This makes it significantly challenging to characterize and hence to study it via the computational lens. これにより、特徴付けと計算レンズによる研究が著しく困難になる。 0.77
Based on a survey of 52 participants, Scheuerman et al (2021) defines online harm to be any violating content that results in any (or a combination) of the following four categories: 52人の参加者による調査に基づいて、scheuerman et al (2021) はオンライン被害を、以下の4つのカテゴリのいずれか(または組み合わせ)に違反するコンテンツであると定義している。 0.72
(i) physical harm, (ii) emotional harm, (i)身体的危害 (ii)感情的な危害 0.54
(iii) relational harm, and (iii)関係性害、及び 0.88
(iv) financial harm. (iv)経済的被害。 0.35
With this in mind, we define two types of referencing that we have investigated in our work within the context of internet memes: このことを念頭において、インターネットミームの文脈の中で、我々の研究で検討した2種類の参照を定義する。 0.71
(i) harmful and (ii) non-harmful. (一)有害で、 (ii)無傷。 0.32
D.1 Reference Types Harmful. D.1 参照型は有害。 0.47
The understanding about harmful referencing (targeting) in memes, can be sourced back to the definition of harmful memes by Pramanick et al (2021b), wherein a social entity is subjected to some form of ill-treatment such as mental abuse, psycho-physiological injury, proprietary damage, emotional disturbance, or public image damage, based on their background (bias, social background, educational background, etc.) by a meme author. ミームにおける有害な参照(ターゲティング)についての理解は、プラマニックら(2021b)による有害なミームの定義に遡り、ミーム著者の背景(バイアス、社会的背景、教育的背景など)に基づいて、社会的な実体が精神的虐待、精神生理学的障害、プロプライエタリな損傷、感情的障害、公的なイメージ損傷などの何らかの不遇を受ける。 0.69
Not-harmful. Non-harmful in memes is any benign mention (or depiction) of a social entity via humour, limerick, harmless pun or any content that does not cause distress. 害はない。 非害なミーム(英: non-harmful in memes)とは、ユーモア、リムリック、無害なパント、または苦痛を起こさないあらゆる内容を通じて、社会的実体の良心的な言及(または描写)である。
訳抜け防止モード: 害はない。 ミームにおいて有害なものは、ユーモアを通じて社会的な実体の良性的な言及(または描写)である。 limerick、harmless pun、あるいは苦悩を起こさないコンテンツ。
0.52
Any reference that is not harmful falls under this category. 有害でない参照は、このカテゴリに該当する。 0.75
referencing 9https://reportharmf ulcontent. 参照 9https://reportharmf ulcontent.com。 0.61
com/advice/other/fur ther-advice/ harmful-content-onli ne-an-explainer com/advice/other/fur ther-advice/ harm-content-online- an-explainer 0.09
10https://swgfl.org. uk/services/ 10https://swgfl.org. uk/services/ 0.17
report-harmful-conte nt report‐harmful 0.53
11https://saferinter net.org.uk/ 11https://saferinter net.org.uk/ 0.20
report-harmful-conte nt report‐harmful 0.53
英語(論文から抽出)日本語訳スコア
Individual joe biden (333) 個人 ジョー・バイデン(333年) 0.48
donald trump (285) barack obama (142) hillary clinton (35) mike pence (13) ドナルド・トランプ(285) バラク・オバマ(142) ヒラリー・クリントン(35) マイク・ペンス(13) 0.79
Harmful meme Organization Community democratic party (184) mexicans (11) republican party (130) libertarian party (44) 有害ミーム 組織 地域民主党(184)メキシコ人(11)共和党(130)リバタリアン党(44) 0.65
cnn (6) cnn (複数形 cnns) 0.61
government (5) black (7) muslim (7) islam (6) russian (5) 政府(5) 黒(7) イスラム教徒(7) イスラム(6) ロシア人(5) 0.58
Individual donald trump (106) republican voter (102) 個人 ドナルド・トランプ(106)共和党議員(102) 0.56
barack obama (94) バラク・オバマ(94) 0.72
joe biden (47) ジョー・バイデン(47歳) 0.63
Not-harmful meme Organization green party (189) biden camp (162) 無傷なミーム組織グリーンパーティ(189年)ビデンキャンプ(162年) 0.62
Community trump supporters (86) 地域 トランプ支持者(86人) 0.57
white (50) communist party (114) 白(50) 共産党(114年) 0.72
america (64) african american (47) democrat officials (45) アメリカ(64歳) アフリカ系アメリカ人(47)民主党員(45) 0.86
alexandria ocasio cortez (44) アレキサンドリア・オカシオ・コルテス(44歳) 0.61
trump administration (52) トランプ政権(52件) 0.72
republican (44) Table 6: The top-5 most frequently referenced entities in each harmfulness class and their target categories. 共和党(44) 表6: トップ5 有害度クラスとその対象カテゴリで最も頻繁に参照されるエンティティ。 0.87
The total frequency for each word is shown in parentheses. 各単語の総頻度は括弧に表示される。 0.74
D.2 Characteristics of Harmful Targeting There are several factors that collectively facilitate the characterisation of harmful targeting in memes. D.2 有害ターゲティングの特徴 ミームにおける有害ターゲティングのキャラクタリゼーションを促進するいくつかの要因がある。 0.62
Here are some: 1. A prominent way of harmfully targeting an entity in a meme is by leveraging sarcastically harmful analogies, framed via either textual or visual instruments (see Fig 7a). いくつかあります 1. ミーム内の実体を有害に狙う顕著な方法は、文字又は視覚機器を介してフレーム化された、皮肉的に有害な類似品を利用することである(図7a参照)。 0.61
2. There could be multiple entities being harmfully targeted within a meme as depicted in Fig. 2. 2 図2に示すように、ミーム内に有害な対象が複数存在する可能性がある。 0.69
Hence, annotators were asked to provide all such targets as harmful, with no exceptions. そのため、アノテーターは、例外なく有害なターゲットを全て提供するよう求められた。 0.70
3. A harmful targeting within a meme could have visual depictions that are either gory, violent, graphically sensitive, or pornographic (see Fig 7b). 3 ミーム内の有害なターゲティングは、ゴーリー、暴力的、グラフィカルに敏感な、またはポルノ的(図7b参照)な視覚描写を有することができる。 0.60
4. Any meme that insinuates an entity on either social, political, professional, religious grounds, can cause harm (see Fig 7c and 7d). 4 社会、政治、職業、宗教のいずれの根拠においても実体を付与するミームは、害を及ぼすことがある(図7c及び図7d参照)。 0.61
5. Any meme that implies an explicit/implicit threat to an individual, a community, a national or an international entity is harmful (see Fig 7d and 7e). 5. 個人、共同体、国家又は国際機関に対する明示的かつ即時的な脅威を示すミームは有害である(図7d及び7e参照)。 0.73
6. Whenever there is any ambiguity regarding the harmfulness of any reference being made, we requested the annotators to proceed following the best of their understanding. 6 参考文献の有害性に関する曖昧さがあるときはいつでも、注釈官に対し、その理解を最大限に進めるよう求めた。 0.56
E Ext-Harm-P Characteristics Below, we perform some analysis of the lexical content of the length of the meme text. E Ext-Harm-P の特徴を以下に示す。 0.20
E.1 Lexical Analysis Interestingly, a significant number of memes are disseminated making references to popular individuals such as Joe Biden, Donald Trump, etc., as can be observed for individual sub-categories (for both harmful and non-harmful memes) in Table 6. E.1 辞書分析 興味深いことに、テーブル6の個々のサブカテゴリ(有害ミームと非有害ミームの両方)で見られるように、ジョー・バイデン(Joe Biden)、ドナルド・トランプ(Donald Trump)などの人気個人への言及として、かなりの数のミームが散布されている。 0.43
We can see in Table 6 that for harmful– organization, the top-5 harmfully targeted organizations include the top-2 leading political organizations in the USA (the Democratic Party and the Republican Party), which are of significant political relevance, followed by the Libertarian Party, a media outlet (CNN), and finally the generic government. 表6では、有害な組織にとって、トップ5の有害な組織は、米国のトップ2の政治組織(民主党と共和党)であり、重要な政治的関連性を持つもの、リバタリアン党、メディア・メディア(CNN)、そして最終的にはジェネラル・政府である。 0.72
At the same time, non-harmfully referenced organizations includes the Biden camp and the Trump administration, which are mostly leveraged for harmfully targeting (or otherwise) the associated public figure. 同時に、害のない組織には、バイデン・キャンプやトランプ政権が含まれており、これは主に関連する公共の人物を有害にターゲット(またはそれ以外)するために利用される。 0.51
Finally, communities such as Mexicans, Black, Muslim, Islam, and Russian are often immensely prejudiced against online, and thus also in our meme dataset. 最後に、メキシコ人、黒人、ムスリム、イスラム教、ロシア人といったコミュニティは、しばしばオンラインに対して非常に偏見をもっています。 0.69
At the same time, non-harmfully targeted communities such as the Trump supporters and the African Americans are not targeted as often as the aforementioned ones, as we can see in Table 6. 同時に、トランプ支持者やアフリカ系アメリカ人のような非ハーモリーなコミュニティは、表6に示すように、上記のコミュニティほど標的にされていない。
訳抜け防止モード: 同時に、トランプ支持者やアフリカ系アメリカ人のような非有害な標的のコミュニティは、前述のものほど標的にされない。 表6にあるように。
0.69
The above analysis of the lexical content of the memes in our datasets largely emphasizes the inherent bias that multimodal content such as memes can exhibit, which in turn can have direct influence on the efficacy of machine/deep learningbased systems for detecting the entities targeted by harmful memes. 上記のデータセットにおけるミームの語彙的内容の分析は、ミームなどのマルチモーダルコンテンツが提示できる固有のバイアスを強調しており、有害ミームを対象とするエンティティを検出するためのマシン/ディープ学習システムの有効性に直接影響を与える可能性がある。 0.65
The reasons for this bias are mostly linked to societal behaviour at the organic level, and the limitations posed by current techniques to process such data. このバイアスの理由は、主に有機レベルでの社会的行動と、そのようなデータを処理する現在の技術によって引き起こされる制限に関係している。 0.67
The mutual exclusion for harmful vs. non-harmful categories for community shows the inherent bias that could pose a challenge, even for the best multi-modal deep neural systems. コミュニティに対する有害と非有害のカテゴリの相互排除は、最高のマルチモーダル深層ニューラルネットワークでさえも、課題となる固有のバイアスを示している。 0.66
The high pervasiveness of a few prominent keywords could effectively lead to increasing bias towards them for specific cases. いくつかの顕著なキーワードの広範性の高さは、特定のケースに対するバイアスを効果的に増加させる可能性がある。 0.51
At the same time, the significant overlap observed in Table 6 for the enlisted entities, between harmful and not-harmful individuals, highlights the need for sophisticated multi-modal systems that can effectively reason towards making a complex decision like detecting harmful targeting within memes, rather than exploit the biases towards certain entities in the training data. 同時に、有害な個人と無害な個人を対象とする入隊者に対する表6の顕著な重複は、訓練データ内の特定のエンティティに対するバイアスを活用せず、ミーム内で有害なターゲットを検出するような複雑な意思決定を効果的に行うための高度なマルチモーダルシステムの必要性を強調している。 0.69
英語(論文から抽出)日本語訳スコア
(a) Trump Trump (複数形 Trumps) 0.62
(b) Republican Party (c) Mexican (b)共和党 (c)メキシコ語 0.62
(d) Biden (e) Democratic Party (d)備伝 (e)民主党 0.31
(f) Black Figure 8: Distributions of the OCR’s length for the memes of top-5 harmful references: harmful (Blue) and non-harmful (Orange). (f)黒 図8: 有害な(青)と有害でない(オレンジ)という、トップ5の有害な参照のミームに対するOCRの長さの分布。 0.59
The depiction is for Individual: (a) and (d); Organization: (b) and (e); and Community: (c) and (f). 描写は個人:(a)と(d)、組織:(b)と(e)、コミュニティ:(c)と(f)である。
訳抜け防止モード: 描写は個人 : (a) と (d) ; 組織 : (b) である。 and (e ) ; and community : (c ) と (f) である。
0.74
E.2 Meme-Message Length Analysis Most of the harmful memes are observed to be created using texts of length 16–18 (see Fig 8). E.2 ミーム・メッサージ長分析 有害なミームの多くは長さ16-18のテキストで作られる(図8参照)。 0.61
At the same time, not-harmful meme-text lengths have a relatively higher standard deviation, possibly due to the diversity of non-harmful messages. 同時に、害のないミームテクストの長さは、おそらく害のないメッセージの多様性のために、比較的高い標準偏差を持つ。 0.60
Trump and the Republic Party have memetext length distributions similar to the non-harmful category: skewing left, but gradually decreasing towards the right. トランプ氏と共和国党は、無害なカテゴリーと同様のミームテキストの分布を左に振るが、徐々に右に傾きつつある。 0.71
This suggests a varying content generation pattern amongst meme creators (see Fig 8). これはミームクリエーターの間でさまざまなコンテンツ生成パターンを示唆している(図8参照)。 0.65
The meme-text length distribution for Biden closely approximates a normal distribution with a low standard deviation. バイデンのミームテキスト長分布は、標準偏差が低い正規分布に密接に近似する。 0.72
Both categories would pre-dominantly entail creating memes with shorter text lengths, possibly due to the popularity of Biden amongst humorous content creators. どちらのカテゴリーも、おそらくユーモラスなコンテンツクリエイターの間でbidenの人気が高まったために、より短いテキスト長のミームを作成することが優先される。 0.50
A similar trend could be seen for the Democratic Party as well, where most of the instances fall within the 50–75 memetext length range. 同様の傾向が民主党にも見られ、ほとんどの事例は50-75メートルの範囲内にある。 0.62
The overall harmful and nonharmful meme-text length distribution is observed to be fairly distributed across different meme-text lengths for Mexican. 全般的に有害で害のないミームテクストの長さ分布は、メキシコのミームテクストの長さによってかなり異なる。 0.55
At the same time, the amount of harm intended towards the Black community is observed to be significantly higher, as compared to moderately distributed non-harmful memes depicted by the corresponding meme-text length distribution in Fig 8. 同時に、図8のmeme-text長分布で表される中程度に分布する非害なミームに比べ、ブラック・コミュニティに意図される害の量は著しく高いことが観察された。 0.80
                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。