論文の概要: Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes
- arxiv url: http://arxiv.org/abs/2411.12174v1
- Date: Tue, 19 Nov 2024 02:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:28.217612
- Title: Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes
- Title(参考訳): Just KIDDIN:indecent memes検出のための知識注入と蒸留
- Authors: Rahul Garg, Trilok Padhi, Hemang Jain, Ugur Kursuncu, Ugur Kursuncu, Ponnurangam Kumaraguru,
- Abstract要約: 本稿では,LVLM(Large Visual Language Models)の知識蒸留(KD)と知識注入を統合し,有害度検出性能を向上させる新しいフレームワークを提案する。
提案手法は,コンパクトなVLMフレームワーク内で注入可能な大規模コモンセンス知識グラフ(KG)であるConceptNetから,サブ知識グラフを抽出する。
2つのヘイトスピーチベンチマークデータセットによる実験結果から,最先端のベースラインよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 8.337745035712311
- License:
- Abstract: Toxicity identification in online multimodal environments remains a challenging task due to the complexity of contextual connections across modalities (e.g., textual and visual). In this paper, we propose a novel framework that integrates Knowledge Distillation (KD) from Large Visual Language Models (LVLMs) and knowledge infusion to enhance the performance of toxicity detection in hateful memes. Our approach extracts sub-knowledge graphs from ConceptNet, a large-scale commonsense Knowledge Graph (KG) to be infused within a compact VLM framework. The relational context between toxic phrases in captions and memes, as well as visual concepts in memes enhance the model's reasoning capabilities. Experimental results from our study on two hate speech benchmark datasets demonstrate superior performance over the state-of-the-art baselines across AU-ROC, F1, and Recall with improvements of 1.1%, 7%, and 35%, respectively. Given the contextual complexity of the toxicity detection task, our approach showcases the significance of learning from both explicit (i.e. KG) as well as implicit (i.e. LVLMs) contextual cues incorporated through a hybrid neurosymbolic approach. This is crucial for real-world applications where accurate and scalable recognition of toxic content is critical for creating safer online environments.
- Abstract(参考訳): オンラインマルチモーダル環境における毒性の識別は、モダリティ(テキスト、ビジュアルなど)にわたるコンテキスト接続の複雑さのため、依然として難しい課題である。
本稿では,LVLM(Large Visual Language Models)からの知識蒸留(KD)と知識注入を統合し,有害度検出性能を向上させる新しいフレームワークを提案する。
提案手法は,コンパクトなVLMフレームワーク内で注入可能な大規模コモンセンス知識グラフ(KG)であるConceptNetから,サブ知識グラフを抽出する。
キャプションの有毒なフレーズとミームの関連性、およびミームの視覚的概念はモデルの推論能力を高める。
AU-ROC, F1, Recallの2つのヘイトスピーチベンチマークデータセットによる実験結果から, AU-ROC, F1, Recallにおける最先端ベースラインよりも優れた性能を示し, それぞれ1.1%, 7%, 35%の改善が得られた。
毒性検出タスクの文脈的複雑さを考慮すると、我々のアプローチは、暗黙的(KG)と暗黙的(LVLM)の両方から学習することの重要性を示す。
これは、有害なコンテンツの正確でスケーラブルな認識が、より安全なオンライン環境を作るために重要である、現実世界のアプリケーションにとって重要なことです。
関連論文リスト
- WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - CADGE: Context-Aware Dialogue Generation Enhanced with Graph-Structured Knowledge Aggregation [25.56539617837482]
コンテキスト対応グラフアテンションモデル(Context-aware GAT)を提案する。
これは、コンテキスト強化された知識集約機構を通じて、関連する知識グラフからグローバルな特徴を同化する。
実験により,本フレームワークは従来のGNNベース言語モデルよりも性能が優れていることが示された。
論文 参考訳(メタデータ) (2023-05-10T16:31:35Z) - ComFact: A Benchmark for Linking Contextual Commonsense Knowledge [31.19689856957576]
そこで我々は,KGから状況に関連のあるコモンセンス知識を特定するために,モデルにコンテキストを付与し,訓練を行う,コモンセンス事実リンクの新しい課題を提案する。
われわれの新しいベンチマークであるComFactは、4つのスタイリスティックな多様なデータセットにまたがるコモンセンスのための293kのインコンテキスト関連アノテーションを含んでいる。
論文 参考訳(メタデータ) (2022-10-23T09:30:39Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Read Beyond the Lines: Understanding the Implied Textual Meaning via a
Skim and Intensive Reading Model [41.61803103143516]
我々は、SIRM(Skim and Intensive Reading Model)と呼ばれる、新しい、単純で効果的なディープ・ニューラル・フレームワークを提案する。
提案したSIRMは,2つの主成分,すなわちスキム読解成分と集中読影成分から構成される。
いくつかのサルカズムベンチマークと,メタファー付き産業用スパムデータセットについて,広範な比較実験を行った。
論文 参考訳(メタデータ) (2020-01-03T03:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。