論文の概要: NLP-CUET@DravidianLangTech-EACL2021: Investigating Visual and Textual
Features to Identify Trolls from Multimodal Social Media Memes
- arxiv url: http://arxiv.org/abs/2103.00466v1
- Date: Sun, 28 Feb 2021 11:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:28:15.205538
- Title: NLP-CUET@DravidianLangTech-EACL2021: Investigating Visual and Textual
Features to Identify Trolls from Multimodal Social Media Memes
- Title(参考訳): NLP-CUET@DravidianLangTech-EACL2021: マルチモーダルソーシャルメディアミームからトロールを識別するための視覚およびテキスト機能の調査
- Authors: Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque
- Abstract要約: 共有タスクは、マルチモーダルソーシャルメディアミームからトロールを識別することができるモデルを開発するために組織されます。
この研究は、私たちがタスクへの参加の一部として開発した計算モデルを提示します。
CNN, VGG16, Inception, Multilingual-BERT, XLM-Roberta, XLNetモデルを用いて視覚的およびテキスト的特徴を検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the past few years, the meme has become a new way of communication on the
Internet. As memes are the images with embedded text, it can quickly spread
hate, offence and violence. Classifying memes are very challenging because of
their multimodal nature and region-specific interpretation. A shared task is
organized to develop models that can identify trolls from multimodal social
media memes. This work presents a computational model that we have developed as
part of our participation in the task. Training data comes in two forms: an
image with embedded Tamil code-mixed text and an associated caption given in
English. We investigated the visual and textual features using CNN, VGG16,
Inception, Multilingual-BERT, XLM-Roberta, XLNet models. Multimodal features
are extracted by combining image (CNN, ResNet50, Inception) and text (Long
short term memory network) features via early fusion approach. Results indicate
that the textual approach with XLNet achieved the highest weighted $f_1$-score
of $0.58$, which enabled our model to secure $3^{rd}$ rank in this task.
- Abstract(参考訳): ここ数年で、ミームはインターネット上での新しいコミュニケーションの方法になりました。
ミームはテキストを埋め込んだ画像なので、すぐに憎しみ、犯罪、暴力を広めることができる。
分類ミームは、マルチモーダルな性質と地域固有の解釈のために非常に困難です。
共有タスクは、マルチモーダルソーシャルメディアミームからトロールを識別することができるモデルを開発するために組織されます。
この研究は、私たちがタスクへの参加の一部として開発した計算モデルを提示します。
トレーニングデータには2つの形式がある: タミル語を混ざったテキストを埋め込んだ画像と、英語で書かれた関連キャプション。
CNN, VGG16, Inception, Multilingual-BERT, XLM-Roberta, XLNetモデルを用いて視覚的およびテキスト的特徴を検討した。
画像(CNN, ResNet50, Inception)とテキスト(Long short term memory network)を早期融合方式で組み合わせることで, マルチモーダルな特徴を抽出する。
結果から,xlnet によるテキストアプローチは,最大$f_1$-score ($0.58$) を達成し,このタスクで 3^{rd}$ のランクを確保することができた。
関連論文リスト
- XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Hate-CLIPper: Multimodal Hateful Meme Classification based on
Cross-modal Interaction of CLIP Features [5.443781798915199]
憎しみを込めたミームはソーシャルメディアの脅威になりつつある。
憎しみに満ちたミームを 検出するには 視覚情報とテキスト情報の両方を 慎重に考慮する必要がある
本稿では,Hate-CLIPperアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-12T04:34:54Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Hate Me Not: Detecting Hate Inducing Memes in Code Switched Languages [1.376408511310322]
複数の言語が話されているインドのような国では、こうしたアホレントな投稿は、コードに切り替えられた言語が異例に混ざり合っている。
この憎しみの言葉はイメージの助けを借りて表現され、「ミーム」を形成し、人間の心に長期間の影響を及ぼす。
我々は、マルチモーダルデータ、すなわちコードスイッチト言語でテキストを含む画像(ミーム)から憎悪と悪を検知するタスクを取り上げている。
論文 参考訳(メタデータ) (2022-04-24T21:03:57Z) - Do Images really do the Talking? Analysing the significance of Images in
Tamil Troll meme classification [0.16863755729554888]
我々は,ミームの分類における画像の視覚的特徴の重要性を探究する。
画像とテキストに基づいて,ミームをトロール・ノントロールのミームとして組み込もうとする。
論文 参考訳(メタデータ) (2021-08-09T09:04:42Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z) - YNU-HPCC at SemEval-2020 Task 8: Using a Parallel-Channel Model for
Memotion Analysis [11.801902984731129]
本稿では,ミーム内のテキスト情報と視覚情報を処理する並列チャネルモデルを提案する。
ミームを識別・分類する共有タスクでは、ソーシャルメディア上での言語行動に応じてデータセットを前処理する。
次に、変換器からの双方向表現(BERT)を適応・微調整し、画像から特徴を抽出するために2種類の畳み込みニューラルネットワークモデル(CNN)を用いた。
論文 参考訳(メタデータ) (2020-07-28T03:20:31Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。