論文の概要: MemeBLIP2: A novel lightweight multimodal system to detect harmful memes
- arxiv url: http://arxiv.org/abs/2504.21226v1
- Date: Tue, 29 Apr 2025 23:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.760668
- Title: MemeBLIP2: A novel lightweight multimodal system to detect harmful memes
- Title(参考訳): MemeBLIP2: 有害ミームを検出するための新しい軽量マルチモーダルシステム
- Authors: Jiaqi Liu, Ran Tong, Aowei Shen, Shuzheng Li, Changlin Yang, Lisha Xu,
- Abstract要約: 画像とテキストの特徴を効果的に組み合わせることで有害なミームを検出する軽量マルチモーダルシステムであるMemeBLIP2を紹介する。
我々は、画像とテキストの表現を共有空間に整列させるモジュールを追加し、より良い分類のためにそれらを融合させることにより、以前の研究に基づいて構築した。
その結果,MemeBLIP2は,皮肉な内容や文化的な内容であっても,両モードとも微妙な手がかりを捉えることができることがわかった。
- 参考スコア(独自算出の注目度): 10.174106475035689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memes often merge visuals with brief text to share humor or opinions, yet some memes contain harmful messages such as hate speech. In this paper, we introduces MemeBLIP2, a light weight multimodal system that detects harmful memes by combining image and text features effectively. We build on previous studies by adding modules that align image and text representations into a shared space and fuse them for better classification. Using BLIP-2 as the core vision-language model, our system is evaluated on the PrideMM datasets. The results show that MemeBLIP2 can capture subtle cues in both modalities, even in cases with ironic or culturally specific content, thereby improving the detection of harmful material.
- Abstract(参考訳): ミームはしばしば、ユーモアや意見を共有するために短いテキストと視覚を融合させるが、ミームの中にはヘイトスピーチのような有害なメッセージを含んでいるものもある。
本稿では,画像とテキストの特徴を効果的に組み合わせて有害なミームを検出する軽量マルチモーダルシステムであるMemeBLIP2を紹介する。
我々は、画像とテキストの表現を共有空間に整列させるモジュールを追加し、より良い分類のためにそれらを融合させることにより、以前の研究に基づいて構築した。
BLIP-2をコアビジョン言語モデルとし,PrideMMデータセットを用いて評価を行った。
その結果、MemeBLIP2は、皮肉な、あるいは文化的に特異的な内容の場合にも、両方のモダリティにおいて微妙な手がかりを捉え、有害物質の検出を改善できることが示唆された。
関連論文リスト
- Improving Multimodal Hateful Meme Detection Exploiting LMM-Generated Knowledge [11.801596051153725]
ミームで憎しみのあるコンテンツを検出することが 重要な課題として現れました
我々は,LMM(Large Multimodal Models)に符号化された知識を活用した課題に取り組むことを提案する。
まず,強靭なミーム表現を構築するために,憎しみのあるミーム検出タスクを指向した知識を抽出することで,LMMを2倍に活用することを提案する。
論文 参考訳(メタデータ) (2025-04-14T06:23:44Z) - HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes [8.97062933976566]
textscHateSieveは、ミーム内の憎しみのある要素の検出とセグメンテーションを強化するために設計されたフレームワークである。
textscHateSieveは、セマンティックなペアのミームを生成するContrastive Meme Generatorを特徴としている。
Hateful Memeでの実証実験では、textscHateSieveはトレーニング可能なパラメータが少なく、既存のLMMを超えるだけでなく、ヘイトフルコンテンツを正確に識別し、分離するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-08-11T14:56:06Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models [17.617187709968242]
既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-09T01:59:11Z) - DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally
Spreading Out Disinformation [72.18912216025029]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。
このデータセットには、COVID-19パンデミック、Black Lives Matter運動、ベジタリアン/ベジタリアンという3つのトピックをカバーするRedditのミームが含まれている。
論文 参考訳(メタデータ) (2022-05-25T09:54:59Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - MOMENTA: A Multimodal Framework for Detecting Harmful Memes and Their
Targets [28.877314859737197]
我々は,有害ミームの検出と,対象とする社会的実体の特定という,新たな2つの課題を解決しようとしている。
特に,有害ミームの検出と,対象とする社会的実体の特定という,新たな2つの課題の解決を目指す。
我々は,世界的および地域的視点を用いて有害ミームを検出する,新しいマルチモーダル(テキスト+画像)ディープニューラルモデルMOMENTAを提案する。
論文 参考訳(メタデータ) (2021-09-11T04:29:32Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Multimodal Learning for Hateful Memes Detection [6.6881085567421605]
本稿では,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。
本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。
論文 参考訳(メタデータ) (2020-11-25T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。