論文の概要: MemeFier: Dual-stage Modality Fusion for Image Meme Classification
- arxiv url: http://arxiv.org/abs/2304.02906v1
- Date: Thu, 6 Apr 2023 07:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:55:23.617048
- Title: MemeFier: Dual-stage Modality Fusion for Image Meme Classification
- Title(参考訳): memefier:イメージミーム分類のためのデュアルステージモダリティ融合
- Authors: Christos Koutlis, Manos Schinas, Symeon Papadopoulos
- Abstract要約: 画像ミームのような新しいデジタルコンテンツは、マルチモーダル手段を用いてヘイトを広めるきっかけとなった。
インターネット画像ミームのきめ細かい分類のためのディープラーニングアーキテクチャであるMemeFierを提案する。
- 参考スコア(独自算出の注目度): 8.794414326545697
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hate speech is a societal problem that has significantly grown through the
Internet. New forms of digital content such as image memes have given rise to
spread of hate using multimodal means, being far more difficult to analyse and
detect compared to the unimodal case. Accurate automatic processing, analysis
and understanding of this kind of content will facilitate the endeavor of
hindering hate speech proliferation through the digital world. To this end, we
propose MemeFier, a deep learning-based architecture for fine-grained
classification of Internet image memes, utilizing a dual-stage modality fusion
module. The first fusion stage produces feature vectors containing modality
alignment information that captures non-trivial connections between the text
and image of a meme. The second fusion stage leverages the power of a
Transformer encoder to learn inter-modality correlations at the token level and
yield an informative representation. Additionally, we consider external
knowledge as an additional input, and background image caption supervision as a
regularizing component. Extensive experiments on three widely adopted
benchmarks, i.e., Facebook Hateful Memes, Memotion7k and MultiOFF, indicate
that our approach competes and in some cases surpasses state-of-the-art. Our
code is available on GitHub https://github.com/ckoutlis/memefier.
- Abstract(参考訳): ヘイトスピーチは、インターネットを通じて大きく成長した社会問題である。
画像ミームのような新しい形式のデジタルコンテンツは、マルチモーダルな手段で憎悪の拡散を引き起こしており、ユニモーダルの場合に比べて解析と検出がはるかに困難である。
この種のコンテンツの正確な自動処理、分析、理解は、デジタル世界を通じたヘイトスピーチの拡散を妨げる努力を促進する。
そこで本研究では,インターネット画像ミームの細粒度分類のための深層学習ベースアーキテクチャであるmemefierを提案する。
第1融合ステージは、ミームのテキストと画像との非自明な接続をキャプチャするモダリティアライメント情報を含む特徴ベクトルを生成する。
第2の融合段階はトランスフォーマーエンコーダのパワーを利用してトークンレベルでモダリティ間の相関を学習し、情報表現を与える。
さらに,外部知識を付加的な入力とみなし,背景画像キャプションの監督を正規化コンポーネントとする。
広く採用されている3つのベンチマーク、すなわちfacebookのヘイトフルミーム、memotion7k、multioffに関する広範な実験は、我々のアプローチが競合し、場合によっては最先端を上回っていることを示している。
コードはgithub https://github.com/ckoutlis/memefierで入手できます。
関連論文リスト
- XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - Text or Image? What is More Important in Cross-Domain Generalization
Capabilities of Hate Meme Detection Models? [2.4899077941924967]
本稿では,マルチモーダルヘイトミーム検出におけるクロスドメイン一般化の難題について述べる。
ヘイトフルミームのテキスト成分のみによって、既存のマルチモーダル分類器が異なる領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。
新たに作成された共同創設者データセットに対する我々の評価は、画像共同創設者の0.18ドルの平均$Delta$F1と比較すると、テキスト共同創設者のより高いパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-07T15:44:55Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched
Contextualization [31.209594252045566]
本稿では,ミームと関連する文書を与えられた新しいタスクMEMEXを提案し,ミームの背景を簡潔に説明するコンテキストを掘り下げることを目的とする。
MCCをベンチマークするために,共通感覚に富んだミーム表現を用いたマルチモーダル・ニューラル・フレームワークであるMIMEと,ミームとコンテキスト間の相互モーダルなセマンティック依存関係を捉える階層的アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:19:35Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Hate-CLIPper: Multimodal Hateful Meme Classification based on
Cross-modal Interaction of CLIP Features [5.443781798915199]
憎しみを込めたミームはソーシャルメディアの脅威になりつつある。
憎しみに満ちたミームを 検出するには 視覚情報とテキスト情報の両方を 慎重に考慮する必要がある
本稿では,Hate-CLIPperアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-12T04:34:54Z) - Feels Bad Man: Dissecting Automated Hateful Meme Detection Through the
Lens of Facebook's Challenge [10.775419935941008]
我々は,現在最先端のマルチモーダル機械学習モデルのヘイトフルミーム検出に対する有効性を評価する。
4chanの"Politically Incorrect"ボード(/pol/)とFacebookのHateful Memes Challengeデータセットの12,140と10,567の2つのベンチマークデータセットを使用します。
分類性能におけるマルチモーダリティの重要性,主流のソーシャルプラットフォーム上でのWebコミュニティの影響力,その逆の3つの実験を行った。
論文 参考訳(メタデータ) (2022-02-17T07:52:22Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。