論文の概要: A Context-aware Attention and Graph Neural Network-based Multimodal Framework for Misogyny Detection
- arxiv url: http://arxiv.org/abs/2508.09175v1
- Date: Thu, 07 Aug 2025 06:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.578323
- Title: A Context-aware Attention and Graph Neural Network-based Multimodal Framework for Misogyny Detection
- Title(参考訳): ミソジニー検出のためのコンテキスト認識とグラフニューラルネットワークに基づくマルチモーダルフレームワーク
- Authors: Mohammad Zia Ur Rehman, Sufyaan Zahoor, Areeb Manzoor, Musharaf Maqbool, Nagendra Kumar,
- Abstract要約: ソーシャルメディア上の攻撃的なコンテンツの大部分は、女性に向けられている。
異性愛的・異性愛的なコンテンツを検出するための新しい枠組みを提案する。
このフレームワークは、Multimodal Attention Module (MANM)、Graph-based Feature Restruction Module (GFRM)、Content-specific Features Learning Module (CFLM)の3つのモジュールから構成されている。
- 参考スコア(独自算出の注目度): 0.11650821883155184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A substantial portion of offensive content on social media is directed towards women. Since the approaches for general offensive content detection face a challenge in detecting misogynistic content, it requires solutions tailored to address offensive content against women. To this end, we propose a novel multimodal framework for the detection of misogynistic and sexist content. The framework comprises three modules: the Multimodal Attention module (MANM), the Graph-based Feature Reconstruction Module (GFRM), and the Content-specific Features Learning Module (CFLM). The MANM employs adaptive gating-based multimodal context-aware attention, enabling the model to focus on relevant visual and textual information and generating contextually relevant features. The GFRM module utilizes graphs to refine features within individual modalities, while the CFLM focuses on learning text and image-specific features such as toxicity features and caption features. Additionally, we curate a set of misogynous lexicons to compute the misogyny-specific lexicon score from the text. We apply test-time augmentation in feature space to better generalize the predictions on diverse inputs. The performance of the proposed approach has been evaluated on two multimodal datasets, MAMI and MMHS150K, with 11,000 and 13,494 samples, respectively. The proposed method demonstrates an average improvement of 10.17% and 8.88% in macro-F1 over existing methods on the MAMI and MMHS150K datasets, respectively.
- Abstract(参考訳): ソーシャルメディア上の攻撃的なコンテンツの大部分は、女性に向けられている。
一般的な攻撃的コンテンツ検出のアプローチは、偽造的コンテンツ検出の課題に直面しているため、女性に対する攻撃的コンテンツに対処するためのソリューションが必要である。
そこで本研究では,異性愛的・異性愛的なコンテンツを検出するための新しいマルチモーダルフレームワークを提案する。
このフレームワークは、Multimodal Attention Module (MANM)、Graph-based Feature Restruction Module (GFRM)、Content-specific Features Learning Module (CFLM)の3つのモジュールから構成されている。
MANMは適応的なゲーティングベースのマルチモーダルコンテキスト対応の注意を取り入れており、モデルが関連する視覚情報やテキスト情報に集中し、コンテキストに関連のある特徴を生成することができる。
GFRMモジュールはグラフを利用して個々のモダリティ内の特徴を洗練し、CFLMはテキストの学習と毒性の特徴やキャプションの特徴などの画像特有の特徴に焦点を当てている。
さらに,テキストからミソジニー固有のレキシコンスコアを計算するために,一連のミソジニーレキシコンをキュレートする。
種々の入力の予測をより一般化するために,特徴空間におけるテスト時間拡張を適用した。
提案手法の性能はMAMIとMMHS150Kの2つのマルチモーダルデータセットで評価され,それぞれ11,000と13,494のサンプルが得られた。
提案手法は,MAMIデータセットとMMHS150Kデータセットの既存手法に対するマクロF1の平均改善率10.17%と8.88%を示した。
関連論文リスト
- Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis [9.561100210295699]
マルチモーダルアスペクトベース感性分析(MABSA)は,画像とテキストのペアから微細な情報を抽出する。
DASCOは、依存性解析ツリーを活用することでアスペクトレベルの感情推論を強化する、きめ細かいスコープ指向のフレームワークである。
2つのベンチマークデータセットの実験は、DASCOがMABSAで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-15T16:05:09Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。
近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。
本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文 参考訳(メタデータ) (2025-02-11T00:07:40Z) - M3Hop-CoT: Misogynous Meme Identification with Multimodal Multi-hop Chain-of-Thought [21.06134139986278]
メソジニアスミーム識別のためのマルチモーダルマルチホップCoT(M3Hop-CoT)フレームワークを提案する。
M3Hop-CoTは、感情を誘発する3段階のマルチモーダルの原理、目標認識、ミーム分析のための文脈知識を採用している。
各種ベンチマークミームデータセットで評価することで,モデルの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-11T19:50:53Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection [4.997673761305336]
本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。
Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-15T06:34:15Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。