論文の概要: MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection
- arxiv url: http://arxiv.org/abs/2506.18919v1
- Date: Sun, 15 Jun 2025 13:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.278804
- Title: MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection
- Title(参考訳): MemeMind: 有害ミーム検出のためのチェーンオブソート推論を備えた大規模マルチモーダルデータセット
- Authors: Hexiang Gu, Qifan Yu, Saihui Hou, Zhiqin Fang, Huijia Wu, Zhaofeng He,
- Abstract要約: 有害なミームは、暗黙のセマンティクスと複雑なマルチモーダル相互作用による自動検出に重大な課題をもたらす。
MemeMindは、科学的に厳格な標準、大規模、多様性、バイリンガルサポート(中国語と英語)、詳細なChain-of-Thought(CoT)アノテーションを備えた、新しいデータセットである。
本稿では,マルチモーダル情報と推論プロセスモデリングを効果的に統合した,革新的な検出フレームワークMemeGuardを提案する。
- 参考スコア(独自算出の注目度): 4.09109557328609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of social media has intensified the spread of harmful content. Harmful memes, which integrate both images and text, pose significant challenges for automated detection due to their implicit semantics and complex multimodal interactions. Although existing research has made progress in detection accuracy and interpretability, the lack of a systematic, large-scale, diverse, and highly explainable dataset continues to hinder further advancement in this field. To address this gap, we introduce MemeMind, a novel dataset featuring scientifically rigorous standards, large scale, diversity, bilingual support (Chinese and English), and detailed Chain-of-Thought (CoT) annotations. MemeMind fills critical gaps in current datasets by offering comprehensive labeling and explicit reasoning traces, thereby providing a solid foundation for enhancing harmful meme detection. In addition, we propose an innovative detection framework, MemeGuard, which effectively integrates multimodal information with reasoning process modeling, significantly improving models' ability to understand and identify harmful memes. Extensive experiments conducted on the MemeMind dataset demonstrate that MemeGuard consistently outperforms existing state-of-the-art methods in harmful meme detection tasks.
- Abstract(参考訳): ソーシャルメディアの急速な発展は有害なコンテンツの拡散を激化させている。
画像とテキストの両方を統合するハームフルミームは、暗黙的なセマンティクスと複雑なマルチモーダル相互作用により、自動検出に重大な課題を生じさせる。
既存の研究では、検出精度と解釈可能性の進歩があったが、体系的で大規模で多様な、非常に説明可能なデータセットの欠如は、この分野のさらなる進歩を妨げ続けている。
このギャップに対処するために、科学的に厳格な標準、大規模、多様性、バイリンガルサポート(中国語と英語)、詳細なChain-of-Thought(CoT)アノテーションを含む新しいデータセットであるMemeMindを紹介した。
MemeMindは、包括的なラベル付けと明確な推論トレースを提供することで、現在のデータセットにおける重要なギャップを埋める。
さらに,マルチモーダル情報と推論プロセスモデリングを効果的に統合し,有害ミームの理解・識別能力を大幅に向上する,革新的な検出フレームワークであるMemeGuardを提案する。
MemeMindデータセットで実施された大規模な実験は、MemeGuardが有害なミーム検出タスクにおいて既存の最先端メソッドを一貫して上回っていることを示している。
関連論文リスト
- Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning [26.546646866501735]
有害ミーム検出のための新しいフレームワークであるU-CoT+を紹介する。
まず,視覚的ミームを詳細なテキスト記述に変換する高忠実度ミーム・トゥ・テキストパイプラインを開発する。
この設計は、ミームの解釈をミーム分類から切り離し、複雑な生の視覚的内容に対する即時推論を避ける。
論文 参考訳(メタデータ) (2025-06-10T06:10:45Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - MemeIntel: Explainable Detection of Propagandistic and Hateful Memes [7.844829622785847]
我々は、アラビア語でプロパガンダのミームと、英語で憎しみのあるミームのための説明強化データセットであるMemeIntelを紹介した。
マルチステージ最適化手法を提案し,VLM(Vision-Language Models)を訓練する。
提案手法は,テキストブラベル検出と説明生成の両方において,ベースモデルよりも性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-23T15:35:48Z) - HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。