論文の概要: Robust Harmful Meme Detection under Missing Modalities via Shared Representation Learning
- arxiv url: http://arxiv.org/abs/2602.01101v1
- Date: Sun, 01 Feb 2026 08:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.592878
- Title: Robust Harmful Meme Detection under Missing Modalities via Shared Representation Learning
- Title(参考訳): 共有表現学習による不規則なモダリティのロバスト・ハーモフル・ミーム検出
- Authors: Felix Breiteneder, Mohammad Belal, Muhammad Saad Saeed, Shahed Masoudian, Usman Naseem, Kulshrestha Juhi, Markus Schedl, Shah Nawaz,
- Abstract要約: 本研究では, 有害なミーム検出手法が不完全データの存在下での挙動を調査するための, 第一種研究について述べる。
具体的には,複数のモダリティの共有表現を独立に投影することで学習する新しいベースライン手法を提案する。
2つのベンチマークデータセットの実験結果から,本手法はテキストの欠落時に既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 19.283838516077196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet memes are powerful tools for communication, capable of spreading political, psychological, and sociocultural ideas. However, they can be harmful and can be used to disseminate hate toward targeted individuals or groups. Although previous studies have focused on designing new detection methods, these often rely on modal-complete data, such as text and images. In real-world settings, however, modalities like text may be missing due to issues like poor OCR quality, making existing methods sensitive to missing information and leading to performance deterioration. To address this gap, in this paper, we present the first-of-its-kind work to comprehensively investigate the behavior of harmful meme detection methods in the presence of modal-incomplete data. Specifically, we propose a new baseline method that learns a shared representation for multiple modalities by projecting them independently. These shared representations can then be leveraged when data is modal-incomplete. Experimental results on two benchmark datasets demonstrate that our method outperforms existing approaches when text is missing. Moreover, these results suggest that our method allows for better integration of visual features, reducing dependence on text and improving robustness in scenarios where textual information is missing. Our work represents a significant step forward in enabling the real-world application of harmful meme detection, particularly in situations where a modality is absent.
- Abstract(参考訳): インターネットミームはコミュニケーションのための強力なツールであり、政治的、心理的、社会文化的アイデアを広めることができる。
しかし、それらは有害であり、標的とする個人やグループに対して憎悪を広めるのに使用できる。
以前の研究では、新しい検出方法の設計に重点を置いていたが、これらはテキストや画像などのモーダル完全データに依存していることが多い。
しかし、実際の設定では、OCRの品質が悪く、既存のメソッドが情報不足に敏感になり、パフォーマンスが低下するなどの問題により、テキストのようなモダリティが欠落する可能性がある。
このギャップに対処するため,本論文では,不完全データの存在下での有害なミーム検出手法の挙動を包括的に調査する第1次研究について述べる。
具体的には,複数のモダリティの共有表現を独立に投影することで学習する新しいベースライン手法を提案する。
これらの共有表現は、データがモーダル不完全であるときに利用することができる。
2つのベンチマークデータセットの実験結果から,本手法はテキストの欠落時に既存の手法よりも優れていることが示された。
さらに,本手法は,テキストへの依存を低減し,テキスト情報の欠落したシナリオにおけるロバスト性を向上し,視覚的特徴のより優れた統合を可能にすることを示唆する。
我々の研究は、特にモダリティが欠如している状況において、有害なミーム検出の現実的な適用を可能にするための重要な一歩である。
関連論文リスト
- Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection [4.09109557328609]
有害なミームは、暗黙のセマンティクスと複雑なマルチモーダル相互作用による自動検出に重大な課題をもたらす。
MemeMindは、科学的に厳格な標準、大規模、多様性、バイリンガルサポート(中国語と英語)、詳細なChain-of-Thought(CoT)アノテーションを備えた、新しいデータセットである。
本稿では,マルチモーダル情報と推論プロセスモデリングを効果的に統合した,革新的な検出フレームワークMemeGuardを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:45:30Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - Analysis of Social Media Data using Multimodal Deep Learning for
Disaster Response [6.8889797054846795]
本稿では,ソーシャルメディアデータのテキストと画像のモダリティを併用して,最先端のディープラーニング技術を用いて共同表現を学習することを提案する。
実世界の災害データセットの実験により、提案されたマルチモーダルアーキテクチャは、単一のモダリティを用いてトレーニングされたモデルよりも優れたパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-04-14T19:36:11Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。