論文の概要: Leveraging LLMs for Context-Aware Implicit Textual and Multimodal Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2510.15685v1
- Date: Fri, 17 Oct 2025 14:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.654341
- Title: Leveraging LLMs for Context-Aware Implicit Textual and Multimodal Hate Speech Detection
- Title(参考訳): 文脈認識型テキスト・マルチモーダルヘイト音声検出のためのLLMの活用
- Authors: Joshua Wolfe Brook, Ilia Markov,
- Abstract要約: 本研究では,Large Language Models (LLMs) を用いたテキストおよびマルチモーダルHate Speech Detection (HSD) の新しいアプローチを提案する。
名前付きエンティティとフルテキストプロンプトに焦点を当てた2つのコンテキスト生成戦略について検討した。
暗黙のヘイトスピーチのテキストLatent Hatredデータセットを用いて実験を行い、MAMIデータセットの擬似ミームのマルチモーダル設定に適用した。
- 参考スコア(独自算出の注目度): 4.422401294418029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research introduces a novel approach to textual and multimodal Hate Speech Detection (HSD), using Large Language Models (LLMs) as dynamic knowledge bases to generate background context and incorporate it into the input of HSD classifiers. Two context generation strategies are examined: one focused on named entities and the other on full-text prompting. Four methods of incorporating context into the classifier input are compared: text concatenation, embedding concatenation, a hierarchical transformer-based fusion, and LLM-driven text enhancement. Experiments are conducted on the textual Latent Hatred dataset of implicit hate speech and applied in a multimodal setting on the MAMI dataset of misogynous memes. Results suggest that both the contextual information and the method by which it is incorporated are key, with gains of up to 3 and 6 F1 points on textual and multimodal setups respectively, from a zero-context baseline to the highest-performing system, based on embedding concatenation.
- Abstract(参考訳): 本研究では,言語モデル(LLM)を動的知識ベースとして用いて,背景コンテキストを生成し,HSD分類器の入力に組み込む,テキスト・マルチモーダル・ヘイト音声検出(HSD)の新しいアプローチを提案する。
名前付きエンティティとフルテキストプロンプトに焦点を当てた2つのコンテキスト生成戦略について検討した。
コンテキストを分類器入力に組み込む方法として,テキスト連結,埋め込み結合,階層型トランスフォーマーベース融合,LLMによるテキスト強調の4つを比較した。
暗黙のヘイトスピーチのテキストLatent Hatredデータセットを用いて実験を行い、MAMIデータセットの擬似ミームのマルチモーダル設定に適用した。
その結果, 組込み結合に基づくゼロテキストベースラインから最高性能システムまで, テキスト・マルチモーダル・セットアップにおいて最大3点と6点のF1ポイントのゲインを持つコンテキスト情報と, 組込み方式の両方が鍵であることが示唆された。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。
本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T20:38:41Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - HICL: Hashtag-Driven In-Context Learning for Social Media Natural
Language Understanding [15.743523533234224]
本稿では,ソーシャルメディア上での自然言語理解のための新しいハッシュタグ駆動型インコンテキスト学習フレームワークを提案する。
我々の目標は、モデル#Encoderがトピック関連セマンティック情報を組み込むことで、トピック関連投稿を検索できるようにすることである。
In-context NLUベンチマークを作成するために4500万のつぶやきを収集し、7つの下流タスクの実験結果から、HICLは過去の最先端の成果を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-08-19T11:31:45Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。