論文の概要: Hate-CLIPper: Multimodal Hateful Meme Classification based on
Cross-modal Interaction of CLIP Features
- arxiv url: http://arxiv.org/abs/2210.05916v2
- Date: Thu, 13 Oct 2022 07:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:29:01.797497
- Title: Hate-CLIPper: Multimodal Hateful Meme Classification based on
Cross-modal Interaction of CLIP Features
- Title(参考訳): Hate-CLIPper:CLIP特徴の相互相互作用に基づくマルチモーダルHateful Meme分類
- Authors: Gokul Karthik Kumar, Karthik Nandakumar
- Abstract要約: 憎しみを込めたミームはソーシャルメディアの脅威になりつつある。
憎しみに満ちたミームを 検出するには 視覚情報とテキスト情報の両方を 慎重に考慮する必要がある
本稿では,Hate-CLIPperアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.443781798915199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hateful memes are a growing menace on social media. While the image and its
corresponding text in a meme are related, they do not necessarily convey the
same meaning when viewed individually. Hence, detecting hateful memes requires
careful consideration of both visual and textual information. Multimodal
pre-training can be beneficial for this task because it effectively captures
the relationship between the image and the text by representing them in a
similar feature space. Furthermore, it is essential to model the interactions
between the image and text features through intermediate fusion. Most existing
methods either employ multimodal pre-training or intermediate fusion, but not
both. In this work, we propose the Hate-CLIPper architecture, which explicitly
models the cross-modal interactions between the image and text representations
obtained using Contrastive Language-Image Pre-training (CLIP) encoders via a
feature interaction matrix (FIM). A simple classifier based on the FIM
representation is able to achieve state-of-the-art performance on the Hateful
Memes Challenge (HMC) dataset with an AUROC of 85.8, which even surpasses the
human performance of 82.65. Experiments on other meme datasets such as
Propaganda Memes and TamilMemes also demonstrate the generalizability of the
proposed approach. Finally, we analyze the interpretability of the FIM
representation and show that cross-modal interactions can indeed facilitate the
learning of meaningful concepts. The code for this work is available at
https://github.com/gokulkarthik/hateclipper.
- Abstract(参考訳): 憎しみのあるミームはソーシャルメディアの脅威になりつつある。
ミーム内の画像と対応するテキストは関連があるが、個別に見る場合、必ずしも同じ意味を持つとは限らない。
したがって、嫌悪なミームを検出するには、視覚情報とテキスト情報の両方を慎重に考慮する必要がある。
画像とテキストの関係を類似した特徴空間で表現することで効果的にキャプチャするので,マルチモーダル事前学習が有用である。
さらに、中間融合によって画像とテキストの相互作用をモデル化することが不可欠である。
既存のほとんどの方法はマルチモーダル事前訓練または中間融合を用いるが、両方ではない。
本研究では,特徴間相互作用行列 (FIM) を用いて,コントラスト言語-画像事前学習 (CLIP) エンコーダを用いて得られた画像とテキストの相互相互作用を明示的にモデル化するHate-CLIPperアーキテクチャを提案する。
FIM表現に基づく単純な分類器は、Hateful Memes Challenge (HMC)データセットにおける最先端のパフォーマンスを85.8のAUROCで達成することができる。
Propaganda MemesやTamil Memesといった他のミームデータセットの実験も、提案手法の一般化可能性を示している。
最後に、FIM表現の解釈可能性を分析し、モーダル間相互作用が意味のある概念の学習を促進することを示す。
この作業のコードはhttps://github.com/gokulkarthik/hateclipperで入手できる。
関連論文リスト
- XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal
Fashion Design [66.68194916359309]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。
MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。
ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文 参考訳(メタデータ) (2022-08-11T03:44:02Z) - MemeTector: Enforcing deep focus for meme detection [8.794414326545697]
オンライン現象の文化的・社会的側面をより正確に把握するために、ソーシャルメディアから画像ミームを正確に回収することが重要である。
本稿では,画像ミームの視覚的部分を正規画像クラスと初期画像ミームのインスタンスとして利用する手法を提案する。
我々は、これらの重要な部分にフォーカスするモデルの能力を高めるために、標準のViTアーキテクチャの上にトレーニング可能なアテンションメカニズムを使用します。
論文 参考訳(メタデータ) (2022-05-26T10:50:29Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。