論文の概要: Enhancing Meme Emotion Understanding with Multi-Level Modality Enhancement and Dual-Stage Modal Fusion
- arxiv url: http://arxiv.org/abs/2511.11126v1
- Date: Fri, 14 Nov 2025 09:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.530563
- Title: Enhancing Meme Emotion Understanding with Multi-Level Modality Enhancement and Dual-Stage Modal Fusion
- Title(参考訳): マルチレベルモード強化とデュアルステージモーダル融合による覚醒感情理解の強化
- Authors: Yi Shi, Wenlong Meng, Zhenyuan Guo, Chengkun Wei, Wenzhi Chen,
- Abstract要約: 我々は、ミーム感情理解(MEU)を促進するための新しいフレームワークであるMemoDetectorを提案する。
特に,MemoDetectorはMET-MEMEでは4.3%,MOODでは3.4%向上した。
- 参考スコア(独自算出の注目度): 18.557896531533043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid rise of social media and Internet culture, memes have become a popular medium for expressing emotional tendencies. This has sparked growing interest in Meme Emotion Understanding (MEU), which aims to classify the emotional intent behind memes by leveraging their multimodal contents. While existing efforts have achieved promising results, two major challenges remain: (1) a lack of fine-grained multimodal fusion strategies, and (2) insufficient mining of memes' implicit meanings and background knowledge. To address these challenges, we propose MemoDetector, a novel framework for advancing MEU. First, we introduce a four-step textual enhancement module that utilizes the rich knowledge and reasoning capabilities of Multimodal Large Language Models (MLLMs) to progressively infer and extract implicit and contextual insights from memes. These enhanced texts significantly enrich the original meme contents and provide valuable guidance for downstream classification. Next, we design a dual-stage modal fusion strategy: the first stage performs shallow fusion on raw meme image and text, while the second stage deeply integrates the enhanced visual and textual features. This hierarchical fusion enables the model to better capture nuanced cross-modal emotional cues. Experiments on two datasets, MET-MEME and MOOD, demonstrate that our method consistently outperforms state-of-the-art baselines. Specifically, MemoDetector improves F1 scores by 4.3\% on MET-MEME and 3.4\% on MOOD. Further ablation studies and in-depth analyses validate the effectiveness and robustness of our approach, highlighting its strong potential for advancing MEU. Our code is available at https://github.com/singing-cat/MemoDetector.
- Abstract(参考訳): ソーシャルメディアやインターネット文化の急速な発展に伴い、ミームは感情的な傾向を表現する人気メディアとなった。
これはミーム感情理解(MEU)への関心が高まり、ミームの背景にある感情的意図を、そのマルチモーダルな内容を利用して分類することを目的としている。
既存の取り組みは有望な成果を上げてきたが,(1)細粒度のマルチモーダル融合戦略の欠如,(2)ミームの暗黙的な意味と背景知識のマイニング不足,の2つの大きな課題が残っている。
これらの課題に対処するため、我々は、MEUを前進させるための新しいフレームワークであるMemoDetectorを提案する。
まず,MLLM(Multimodal Large Language Models)の豊富な知識と推論機能を利用して,暗黙的および文脈的洞察を段階的に推論し抽出する4段階のテキスト拡張モジュールを提案する。
これらの強化されたテキストは、元のミームの内容を大幅に豊かにし、下流の分類のための貴重なガイダンスを提供する。
次に、2段階のモーダル融合戦略を設計し、第1段階は生のミーム画像とテキストで浅い融合を行い、第2段階は拡張された視覚的特徴とテキスト的特徴を深く統合する。
この階層的な融合により、モデルはニュアンスなクロスモーダルな感情的な手がかりをよりよく捉えることができる。
MET-MEMEとMOODの2つのデータセットに対する実験により,我々の手法が常に最先端のベースラインより優れていることが示された。
具体的には、MemoDetectorはMET-MEMEで4.3\%、MOODで3.4\%改善する。
さらなるアブレーション研究と詳細な分析により、我々のアプローチの有効性とロバスト性を検証し、MEUを前進させる強力な可能性を強調した。
私たちのコードはhttps://github.com/singing-cat/MemoDetector.comで利用可能です。
関連論文リスト
- DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis [62.31018417955254]
DeepMLFは、深層融合に適した学習可能なトークンを持つ新しいマルチモーダル言語モデルである。
以上の結果から,より深層核融合により,既存のアプローチよりも優れた核融合深度 (5-7) が得られることが確認された。
論文 参考訳(メタデータ) (2025-04-15T11:28:02Z) - Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge [11.801596051153725]
ミームで憎しみのあるコンテンツを検出することが 重要な課題として現れました
我々は,LMM(Large Multimodal Models)に符号化された知識を活用した課題に取り組むことを提案する。
まず,強靭なミーム表現を構築するために,憎しみのあるミーム検出タスクを指向した知識を抽出することで,LMMを2倍に活用することを提案する。
論文 参考訳(メタデータ) (2025-04-14T06:23:44Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched
Contextualization [31.209594252045566]
本稿では,ミームと関連する文書を与えられた新しいタスクMEMEXを提案し,ミームの背景を簡潔に説明するコンテキストを掘り下げることを目的とする。
MCCをベンチマークするために,共通感覚に富んだミーム表現を用いたマルチモーダル・ニューラル・フレームワークであるMIMEと,ミームとコンテキスト間の相互モーダルなセマンティック依存関係を捉える階層的アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:19:35Z) - MemeFier: Dual-stage Modality Fusion for Image Meme Classification [8.794414326545697]
画像ミームのような新しいデジタルコンテンツは、マルチモーダル手段を用いてヘイトを広めるきっかけとなった。
インターネット画像ミームのきめ細かい分類のためのディープラーニングアーキテクチャであるMemeFierを提案する。
論文 参考訳(メタデータ) (2023-04-06T07:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。