論文の概要: KID: Knowledge-Injected Dual-Head Learning for Knowledge-Grounded Harmful Meme Detection
- arxiv url: http://arxiv.org/abs/2601.21796v1
- Date: Thu, 29 Jan 2026 14:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.900258
- Title: KID: Knowledge-Injected Dual-Head Learning for Knowledge-Grounded Harmful Meme Detection
- Title(参考訳): KID:知識を注入したデュアルヘッド学習によるハームフル・ミーム検出
- Authors: Yaocong Li, Leihan Zhang, Le Zhang, Qiang Yan,
- Abstract要約: 本稿では,知識ベースで有害なミーム検出を行うための知識注入型デュアルヘッド学習フレームワークを提案する。
KIDはラベルに制約のある蒸留パラダイムを採用し、複雑なミーム理解を構造化推論連鎖に分解し、視覚的証拠、背景知識、分類ラベルを明示的に結びつける。
- 参考スコア(独自算出の注目度): 6.006318485752551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internet memes have become pervasive carriers of digital culture on social platforms. However, their heavy reliance on metaphors and sociocultural context also makes them subtle vehicles for harmful content, posing significant challenges for automated content moderation. Existing approaches primarily focus on intra-modal and inter-modal signal analysis, while the understanding of implicit toxicity often depends on background knowledge that is not explicitly present in the meme itself. To address this challenge, we propose KID, a Knowledge-Injected Dual-Head Learning framework for knowledge-grounded harmful meme detection. KID adopts a label-constrained distillation paradigm to decompose complex meme understanding into structured reasoning chains that explicitly link visual evidence, background knowledge, and classification labels. These chains guide the learning process by grounding external knowledge in meme-specific contexts. In addition, KID employs a dual-head architecture that jointly optimizes semantic generation and classification objectives, enabling aligned linguistic reasoning while maintaining stable decision boundaries. Extensive experiments on five multilingual datasets spanning English, Chinese, and low-resource Bengali demonstrate that KID achieves SOTA performance on both binary and multi-label harmful meme detection tasks, improving over previous best methods by 2.1%--19.7% across primary evaluation metrics. Ablation studies further confirm the effectiveness of knowledge injection and dual-head joint learning, highlighting their complementary contributions to robust and generalizable meme understanding. The code and data are available at https://github.com/PotatoDog1669/KID.
- Abstract(参考訳): インターネットミームは、ソーシャルプラットフォーム上でデジタル文化の広範にわたるキャリアとなった。
しかし、メタファーや社会文化の文脈に大きく依存しているため、有害なコンテンツに対する微妙な車両も提供され、自動的なコンテンツモデレーションには重大な課題が生じる。
既存のアプローチは主にモーダル内およびモーダル間信号分析に焦点を当てているが、暗黙的な毒性の理解はミーム自体に明示的に存在しない背景知識に依存していることが多い。
この課題に対処するために,知識ベースで有害なミーム検出を行うための知識注入型デュアルヘッドラーニングフレームワークであるKIDを提案する。
KIDは、複雑なミーム理解を構造化推論連鎖に分解し、視覚的エビデンス、背景知識、分類ラベルを明示的にリンクするラベル制限蒸留パラダイムを採用する。
これらのチェーンは、ミーム固有の文脈で外部知識を基盤として学習プロセスを導く。
さらに、KIDは、セマンティック生成と分類の目的を協調的に最適化し、安定な決定境界を維持しつつ、整列した言語推論を可能にするデュアルヘッドアーキテクチャを採用している。
英語、中国語、低リソースのBengaliにまたがる5つの多言語データセットに関する大規模な実験は、KIDがバイナリとマルチラベルの有害なミーム検出タスクの両方でSOTAのパフォーマンスを達成し、主要な評価指標で以前のベストメソッドよりも2.1%~19.7%改善していることを示した。
アブレーション研究は、知識注入と双頭共同学習の有効性をさらに確認し、堅牢で一般化可能なミーム理解への相補的な貢献を強調した。
コードとデータはhttps://github.com/PotatoDog1669/KIDで公開されている。
関連論文リスト
- Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering [55.368681418311894]
既存の知識に基づくビジュアル質問回答 (KBVQA) 手法は、マルチモーダルな大規模言語モデル (MLLM) における暗黙的な知識をコンテキスト内学習または検索拡張生成による明示的な知識を介して利用する。
KEPO(Knowledge Encouragement Preference Optimization)を用いたHindsight Distilled Reasoning(HinD)フレームワークを提供する。
OK-VQAとA-OKVQAの実験によりHinDの有効性が検証され、7BサイズのMLLMから推論したHinDが商用モデルAPIや外部知識を使わずに優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-14T10:03:23Z) - Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes [8.42736066868944]
本稿では,LVLM(Large Visual Language Models)の知識蒸留(KD)と知識注入を統合し,有害度検出性能を向上させる新しいフレームワークを提案する。
提案手法は,コンパクトなVLMフレームワーク内で注入可能な大規模コモンセンス知識グラフ(KG)であるConceptNetから,サブ知識グラフを抽出する。
2つのヘイトスピーチベンチマークデータセットによる実験結果から,最先端のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-19T02:39:28Z) - What Really is Commonsense Knowledge? [58.5342212738895]
我々は、既存のコモンセンス知識の定義を調査し、概念を定義するための3つのフレームワークに基礎を置き、それらをコモンセンス知識の統一的な定義に統合する。
次に、アノテーションと実験のための統合された定義をCommonsenseQAとCommonsenseQA 2.0データセットで使用します。
本研究は,2つのデータセットには非常識知識のインスタンスが多数存在し,これら2つのサブセットに対して大きな性能差があることを示す。
論文 参考訳(メタデータ) (2024-11-06T14:54:19Z) - Towards Automated Knowledge Integration From Human-Interpretable Representations [55.2480439325792]
我々は,情報メタ学習の原理を理論的に導入・動機付けし,自動的かつ制御可能な帰納バイアス選択を可能にする。
データ効率と一般化を改善するための情報メタラーニングのメリットと限界を実証的に示す。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning [45.62134354858683]
CANDLEは、コモンセンス知識ベースに対する概念化とインスタンス化を反復的に行うフレームワークである。
CANDLEをATOMICに適用することにより、600万の概念化と三重項のインスタンス化を含む総合的な知識基盤を構築する。
論文 参考訳(メタデータ) (2024-01-14T13:24:30Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - Unsupervised Domain Adaptation on Person Re-Identification via
Dual-level Asymmetric Mutual Learning [108.86940401125649]
本稿では,多種多様な埋め込み空間を持つより広い知識領域から識別的表現を学習するための,DAML(Dual-level Asymmetric Mutual Learning)を提案する。
2つのネットワーク間の知識伝達は、非対称な相互学習方式に基づいている。
Market-1501、CUHK-SYSU、MSMT17の公開データセットにおける実験は、最先端技術よりもDAMLの方が優れていることを証明した。
論文 参考訳(メタデータ) (2023-01-29T12:36:17Z) - Distilling Holistic Knowledge with Graph Neural Networks [37.86539695906857]
知識蒸留(KD)は、より大規模な教師ネットワークからより小さな学習可能な学生ネットワークへ知識を伝達することを目的としている。
既存のKD法は主に、個々の知識と関係知識の2つの種類の知識を考察してきた。
本稿では, インスタンス間に構築された属性グラフに基づいて, 新たな包括的知識を蒸留する。
論文 参考訳(メタデータ) (2021-08-12T02:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。