論文の概要: Hateful Memes Detection via Complementary Visual and Linguistic Networks
- arxiv url: http://arxiv.org/abs/2012.04977v1
- Date: Wed, 9 Dec 2020 11:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:03:06.927350
- Title: Hateful Memes Detection via Complementary Visual and Linguistic Networks
- Title(参考訳): 相補的視覚・言語ネットワークによるヘイトフルミームの検出
- Authors: Weibo Zhang, Guihua Liu, Zhuohua Li, Fuqing Zhu
- Abstract要約: Hateful Memes Challenge 2020において、補完的な視覚的および言語的ネットワークに基づくソリューションを調査します。
文脈レベルおよび敏感なオブジェクトレベルの情報は、視覚的および言語的埋め込みにおいて考慮される。
その結果,CVLは良好な性能を示し,AUROCと精度の基準で78:48%,72:95%が得られた。
- 参考スコア(独自算出の注目度): 4.229588654547344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hateful memes are widespread in social media and convey negative information.
The main challenge of hateful memes detection is that the expressive meaning
can not be well recognized by a single modality. In order to further integrate
modal information, we investigate a candidate solution based on complementary
visual and linguistic network in Hateful Memes Challenge 2020. In this way,
more comprehensive information of the multi-modality could be explored in
detail. Both contextual-level and sensitive object-level information are
considered in visual and linguistic embedding to formulate the complex
multi-modal scenarios. Specifically, a pre-trained classifier and object
detector are utilized to obtain the contextual features and region-of-interests
(RoIs) from the input, followed by the position representation fusion for
visual embedding. While linguistic embedding is composed of three components,
i.e., the sentence words embedding, position embedding and the corresponding
Spacy embedding (Sembedding), which is a symbol represented by vocabulary
extracted by Spacy. Both visual and linguistic embedding are fed into the
designed Complementary Visual and Linguistic (CVL) networks to produce the
prediction for hateful memes. Experimental results on Hateful Memes Challenge
Dataset demonstrate that CVL provides a decent performance, and produces 78:48%
and 72:95% on the criteria of AUROC and Accuracy. Code is available at
https://github.com/webYFDT/hateful.
- Abstract(参考訳): 憎しみのあるミームはソーシャルメディアに広がり、ネガティブな情報を伝える。
ヘイトフルミーム検出の主な課題は、表現的意味が単一のモダリティによって十分に認識できないことである。
モーダル情報をさらに統合するために,ヘイトフルミームチャレンジ2020において,相補的な視覚・言語ネットワークに基づく候補ソリューションについて検討する。
このようにして、マルチモダリティのより包括的な情報を詳細に探究することができる。
コンテクストレベルおよびセンシティブなオブジェクトレベルの情報は、複雑なマルチモーダルシナリオを定式化するために、視覚および言語埋め込みにおいて考慮される。
具体的には、予め訓練された分類器と物体検出器を用いて、入力から文脈的特徴と関心領域(roi)を取得し、視覚埋め込みのための位置表現融合を行う。
言語埋め込みは3つの構成要素、すなわち文語埋め込み、位置埋め込み、および対応するスペイシー埋め込み(Sembedding)から構成されるが、スペイシーはスペイシーによって抽出された語彙で表されるシンボルである。
視覚的および言語的埋め込みは、ハトフルミームの予測を生成するためにデザインされた補完的視覚言語(CVL)ネットワークに供給される。
Hateful Memes Challenge Datasetの実験結果から,CVLは良好な性能を示し,AUROCと精度の基準で78:48%,72:95%を生成することがわかった。
コードはhttps://github.com/webyfdt/hatefulで入手できる。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection [4.997673761305336]
本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。
Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-15T06:34:15Z) - CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文 参考訳(メタデータ) (2024-01-11T10:20:13Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal
Information Retrieval for Visual Word Sense Disambiguation [0.0]
本稿では,SemEval 2023の視覚的単語感覚の曖昧さ共有タスクについて述べる。
提案システムは,マルチモーダル埋め込み,メソッドのランク付け学習,知識に基づくアプローチを統合している。
私たちのソリューションは多言語作業では3位にランクされ、ペルシャの3つのサブタスクのうちの1つであるトラックで優勝しました。
論文 参考訳(メタデータ) (2023-04-14T13:45:59Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。