論文の概要: MemeIntel: Explainable Detection of Propagandistic and Hateful Memes
- arxiv url: http://arxiv.org/abs/2502.16612v2
- Date: Sat, 27 Sep 2025 20:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.833469
- Title: MemeIntel: Explainable Detection of Propagandistic and Hateful Memes
- Title(参考訳): MemeIntel: プロパガンダとヘイトなミームの説明可能な検出
- Authors: Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan, Ali Ezzat Shahroor, Firoj Alam,
- Abstract要約: 本稿では,アラビア語およびヘイトフルミームにおけるプロパガンダ的ミームに対する説明強化データセットであるMemeXplainを紹介する。
マルチステージ最適化手法を提案し,VLM(Vision-Language Models)を訓練する。
以上の結果から,この手法はベースモデルよりもラベル検出と説明生成品質を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 7.312435036698118
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of multimodal content on social media presents significant challenges in understanding and moderating complex, context-dependent issues such as misinformation, hate speech, and propaganda. While efforts have been made to develop resources and propose new methods for automatic detection, limited attention has been given to jointly modeling label detection and the generation of explanation-based rationales, which often leads to degraded classification performance when trained simultaneously. To address this challenge, we introduce MemeXplain, an explanation-enhanced dataset for propagandistic memes in Arabic and hateful memes in English, making it the first large-scale resource for these tasks. To solve these tasks, we propose a multi-stage optimization approach and train Vision-Language Models (VLMs). Our results show that this strategy significantly improves both label detection and explanation generation quality over the base model, outperforming the current state-of-the-art with an absolute improvement of ~1.4% (Acc) on ArMeme and ~2.2% (Acc) on Hateful Memes. For reproducibility and future research, we aim to make the MemeXplain dataset and scripts publicly available (https://github.com/MohamedBayan/MemeIntel).
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダルコンテンツの普及は、誤情報、ヘイトスピーチ、プロパガンダといった複雑な文脈依存の問題を理解し、緩和する上で大きな課題を呈している。
資源開発や新しい自動検出手法の提案が試みられているが、ラベル検出と説明に基づく有理性の生成を共同でモデル化することには限定的な注意が払われており、同時に訓練された場合の分類性能が劣化することが多い。
この課題に対処するために、アラビア語でプロパガンダ的なミームと、英語で憎しみのあるミームのための説明強化データセットであるMemeXplainを導入し、これらのタスクのための最初の大規模リソースとなる。
これらの課題を解決するために,多段階最適化手法を提案し,視覚言語モデル(VLM)を訓練する。
提案手法は,ArMemeでは1.4% (Acc) ,Hateful Memesでは2.2% (Acc) が絶対的に改善され,現在の最先端技術よりも優れたラベル検出と説明生成品質が向上することを示す。
再現性と今後の研究のために、私たちはMemeXplainデータセットとスクリプトを一般公開することを目指しています(https://github.com/MohamedBayan/MemeIntel)。
関連論文リスト
- Can Thinking Models Think to Detect Hateful Memes? [7.77199523320035]
思考に基づくマルチモーダル大言語モデル(MLLM)は近年、視覚言語による理解が進んでいる。
思考に基づくMLLMにおける推論を改善する強化学習に基づくポストトレーニングフレームワークを提案する。
提案手法は,最先端性能を実現し,精度とF1を約1%,説明品質を約3%向上させる。
論文 参考訳(メタデータ) (2026-03-01T18:41:52Z) - From Shallow Humor to Metaphor: Towards Label-Free Harmful Meme Detection via LMM Agent Self-Improvement [32.18826266751766]
オンラインメディアにおける有害ミームの拡散は、公衆衛生と安定性に重大なリスクをもたらす。
既存の検出方法は、トレーニングのために大規模なラベル付きデータに大きく依存している。
本稿では,LMM(Large Multimodal Model)エージェントによる最初のlAbeLフリーなhARmful Meme検出フレームワークであるALARMを提案する。
論文 参考訳(メタデータ) (2025-12-25T09:36:35Z) - Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection [4.09109557328609]
有害なミームは、暗黙のセマンティクスと複雑なマルチモーダル相互作用による自動検出に重大な課題をもたらす。
MemeMindは、科学的に厳格な標準、大規模、多様性、バイリンガルサポート(中国語と英語)、詳細なChain-of-Thought(CoT)アノテーションを備えた、新しいデータセットである。
本稿では,マルチモーダル情報と推論プロセスモデリングを効果的に統合した,革新的な検出フレームワークMemeGuardを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:45:30Z) - Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge [11.801596051153725]
ミームで憎しみのあるコンテンツを検出することが 重要な課題として現れました
我々は,LMM(Large Multimodal Models)に符号化された知識を活用した課題に取り組むことを提案する。
まず,強靭なミーム表現を構築するために,憎しみのあるミーム検出タスクを指向した知識を抽出することで,LMMを2倍に活用することを提案する。
論文 参考訳(メタデータ) (2025-04-14T06:23:44Z) - Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions [4.649093665157263]
本稿では,LMM(Large Multimodal Models)を利用した新しいフレームワークであるIntMemeを紹介する。
IntMemeは、ミームのモデレーションにおける正確性と説明可能性の両方を改善するという2つの課題に対処する。
提案手法はPT-VLMにおける不透明度と誤分類の問題に対処し,LMMを用いた憎しみのあるミーム検出を最適化する。
論文 参考訳(メタデータ) (2025-02-16T10:45:40Z) - REO-VLM: Transforming VLM to Meet Regression Challenges in Earth Observation [58.91579272882073]
本稿では,地球観測領域に特有な回帰・生成タスクを統合するために,textbfREO-Instructと呼ばれる新しいベンチマークデータセットを提案する。
我々は,回帰機能を従来の生成関数とシームレスに統合する基盤モデルであるtextbfREO-VLM を開発した。
論文 参考訳(メタデータ) (2024-12-21T11:17:15Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes
Analysis [0.0]
SemiMemesは、自動エンコーダと分類タスクを組み合わせて、リソース豊富な未ラベルデータを利用する新しいトレーニング手法である。
本研究は、他のマルチモーダル・セミ教師あり学習モデルよりも優れた、マルチモーダル・セミ教師あり学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-31T11:22:03Z) - The Hateful Memes Challenge Next Move [0.0]
ヘイトフルミームのようなテキストに埋め込まれた画像は、良心的な共同創設者のような難しい例がデータセットに組み込まれている場合、ユニモーダル推論を使って分類するのが困難である。
私たちは、Hateful Meme Challengeで優勝したチームのフレームワークに基づいて、Facebook AIのHateful Memesデータセットに加えて、より多くのラベル付きミームを生成しようとしています。
ラベル付きデータに対する半教師付き学習課題には人間の介入とフィルタリングが必要であり、新しいデータに限られた量を加えると、余分な分類性能が得られないことが判明した。
論文 参考訳(メタデータ) (2022-12-13T15:37:53Z) - DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally
Spreading Out Disinformation [72.18912216025029]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。
このデータセットには、COVID-19パンデミック、Black Lives Matter運動、ベジタリアン/ベジタリアンという3つのトピックをカバーするRedditのミームが含まれている。
論文 参考訳(メタデータ) (2022-05-25T09:54:59Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。