論文の概要: M3Hop-CoT: Misogynous Meme Identification with Multimodal Multi-hop Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2410.09220v1
- Date: Fri, 11 Oct 2024 19:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:43:17.607425
- Title: M3Hop-CoT: Misogynous Meme Identification with Multimodal Multi-hop Chain-of-Thought
- Title(参考訳): M3Hop-CoT:マルチモーダル・マルチホップ・オブ・サートを用いた異種ミーム同定
- Authors: Gitanjali Kumari, Kirtan Jain, Asif Ekbal,
- Abstract要約: メソジニアスミーム識別のためのマルチモーダルマルチホップCoT(M3Hop-CoT)フレームワークを提案する。
M3Hop-CoTは、感情を誘発する3段階のマルチモーダルの原理、目標認識、ミーム分析のための文脈知識を採用している。
各種ベンチマークミームデータセットで評価することで,モデルの一般化性を評価する。
- 参考スコア(独自算出の注目度): 21.06134139986278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a significant rise in the phenomenon of hate against women on social media platforms, particularly through the use of misogynous memes. These memes often target women with subtle and obscure cues, making their detection a challenging task for automated systems. Recently, Large Language Models (LLMs) have shown promising results in reasoning using Chain-of-Thought (CoT) prompting to generate the intermediate reasoning chains as the rationale to facilitate multimodal tasks, but often neglect cultural diversity and key aspects like emotion and contextual knowledge hidden in the visual modalities. To address this gap, we introduce a Multimodal Multi-hop CoT (M3Hop-CoT) framework for Misogynous meme identification, combining a CLIP-based classifier and a multimodal CoT module with entity-object-relationship integration. M3Hop-CoT employs a three-step multimodal prompting principle to induce emotions, target awareness, and contextual knowledge for meme analysis. Our empirical evaluation, including both qualitative and quantitative analysis, validates the efficacy of the M3Hop-CoT framework on the SemEval-2022 Task 5 (MAMI task) dataset, highlighting its strong performance in the macro-F1 score. Furthermore, we evaluate the model's generalizability by evaluating it on various benchmark meme datasets, offering a thorough insight into the effectiveness of our approach across different datasets.
- Abstract(参考訳): 近年、ソーシャルメディア上で女性に対する憎悪の現象が顕著に増加しており、特に偽りのミームが用いられている。
これらのミームは、しばしば微妙で不明瞭な手がかりを持つ女性をターゲットにしている。
近年,大規模言語モデル (LLMs) は,マルチモーダルタスクの促進のための理論的根拠として中間的推論連鎖の生成を促すために,Chain-of-Thought (CoT) を用いた推論において有望な結果を示しているが,文化的な多様性や視覚的モダリティに隠された感情や文脈的知識といった重要な側面を無視することが多い。
このギャップに対処するため、我々はM3Hop-CoT(Multimodal Multi-hop CoT)フレームワークを導入し、CLIPベースの分類器とマルチモーダルCoTモジュールとエンティティ-オブジェクト-リレーショナル統合を組み合わせた。
M3Hop-CoTは、感情を誘発する3段階のマルチモーダルの原理、目標認識、ミーム分析のための文脈知識を採用している。
定性的・定量的な分析を含む実証的評価は,SemEval-2022 Task 5 (MAMI Task) データセット上でのM3Hop-CoTフレームワークの有効性を検証し,マクロF1スコアの強みを浮き彫りにした。
さらに、様々なベンチマークミームデータセット上で評価することで、モデルの一般化可能性を評価し、異なるデータセットにまたがるアプローチの有効性について、詳細な知見を提供する。
関連論文リスト
- Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework [15.647035299476894]
本稿では,変換器を用いたマルチレベルアテンション(STMA)と呼ばれるマルチモーダルヘイトコンテンツ検出のためのスケーラブルアーキテクチャを提案する。
それは、注意に基づく深層学習機構、視覚的注意機構エンコーダ、キャプション的注意機構エンコーダの3つの主要な部分で構成されている。
Hateful memes、MultiOff、MMHS150Kといった3つのヘイトスピーチデータセットに対する複数の評価基準を用いて、提案されたアーキテクチャの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-08T15:42:18Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - M$^3$CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought [50.576016777061724]
MCoT(Multi-modal Chain-of-Thought)は、ステップバイステップ推論において、テキストと視覚の両方のモダリティからの知識を活用するモデルを必要とする。
現在のMCoTベンチマークでは、(1)視覚的モーダル推論の欠如、(2)単段階視覚的モーダル推論の欠如、(3)ドメインの欠如など、いくつかの課題に直面している。
上記の課題に対処するための新しいベンチマーク(M$3$CoT)を導入し、マルチドメイン、マルチステップ、マルチモーダルCoTを推進した。
論文 参考訳(メタデータ) (2024-05-26T07:56:30Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。