論文の概要: MM-HSD: Multi-Modal Hate Speech Detection in Videos
- arxiv url: http://arxiv.org/abs/2508.20546v1
- Date: Thu, 28 Aug 2025 08:36:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.228803
- Title: MM-HSD: Multi-Modal Hate Speech Detection in Videos
- Title(参考訳): MM-HSD:ビデオにおけるマルチモーダルヘイト音声検出
- Authors: Berta Céspedes-Sarrias, Carlos Collado-Capell, Pablo Rodenas-Ruiz, Olena Hrynenko, Andrea Cavallaro,
- Abstract要約: ビデオにおけるヘイトスピーチ検出のためのマルチモーダルモデルMM-HSDを提案する。
音声書き起こしやフレーム(例えば画面上のテキスト)から派生したビデオフレーム、音声、テキストを、CMA(Cross-Modal Attention)によって抽出された特徴と統合する。
我々のアプローチは、オンスクリーンテキストをクエリとして使用し、残りのモダリティをキーとして使用する場合のパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 13.518681647462627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While hate speech detection (HSD) has been extensively studied in text, existing multi-modal approaches remain limited, particularly in videos. As modalities are not always individually informative, simple fusion methods fail to fully capture inter-modal dependencies. Moreover, previous work often omits relevant modalities such as on-screen text and audio, which may contain subtle hateful content and thus provide essential cues, both individually and in combination with others. In this paper, we present MM-HSD, a multi-modal model for HSD in videos that integrates video frames, audio, and text derived from speech transcripts and from frames (i.e.~on-screen text) together with features extracted by Cross-Modal Attention (CMA). We are the first to use CMA as an early feature extractor for HSD in videos, to systematically compare query/key configurations, and to evaluate the interactions between different modalities in the CMA block. Our approach leads to improved performance when on-screen text is used as a query and the rest of the modalities serve as a key. Experiments on the HateMM dataset show that MM-HSD outperforms state-of-the-art methods on M-F1 score (0.874), using concatenation of transcript, audio, video, on-screen text, and CMA for feature extraction on raw embeddings of the modalities. The code is available at https://github.com/idiap/mm-hsd
- Abstract(参考訳): ヘイトスピーチ検出(HSD)はテキストで広く研究されているが、既存のマルチモーダルアプローチは、特にビデオでは限られている。
モダリティは必ずしも個々に意味のあるものではないので、単純な融合法はモダリティ間の依存関係を完全に把握できない。
さらに、以前の作品では、微妙な憎しみのある内容を含むような、画面上のテキストやオーディオのような関連するモダリティを省略することが多く、個々に、そして他のものと組み合わせて、不可欠な手がかりを提供する。
本稿では,ビデオのフレーム,音声,テキストを,音声の文字起こしやフレーム(即ち画面上テキスト)から抽出したテキストと,CMA(Cross-Modal Attention)によって抽出された特徴とを統合したHSDのマルチモーダルモデルであるMM-HSDを提案する。
我々は、ビデオにおけるHSDの早期特徴抽出器としてCMAを初めて使用し、クエリ/キー構成を体系的に比較し、CMAブロック内の異なるモーダル間の相互作用を評価する。
我々のアプローチは、オンスクリーンテキストをクエリとして使用し、残りのモダリティをキーとして使用する場合のパフォーマンスを向上させる。
HateMMデータセットを用いた実験の結果,MM-HSDは転写,音声,ビデオ,オンスクリーンテキスト,CMAの結合を用いて,M-F1スコア(0.874)における最先端の手法よりも優れており,モダリティの生埋め込みにおける特徴抽出が可能であることがわかった。
コードはhttps://github.com/idiap/mm-hsdで入手できる。
関連論文リスト
- GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval [1.8434042562191815]
本稿では,TC-MGC と呼ばれるテキスト記述型マルチグラインドコントラストフレームワークを提案する。
本モデルでは,単語の重み付けとテキストの重み付けに係わる集約されたフレームとビデオ表現を生成するために,言語ビデオのアテンションブロックを用いる。
実証的に、TC-MGCは複数のテキストビデオ検索ベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2025-04-07T03:33:14Z) - MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。
MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文 参考訳(メタデータ) (2025-03-26T16:28:04Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval [6.656989511639513]
テキスト・トゥ・ビデオ検索(TVR)タスクの鍵は、各テキスト(単語からなる)とビデオ(音声と画像のフレームを構成する)のそれぞれに固有の類似性を学ぶことである。
テキストフレームとワードフレームからなるMGFIと呼ばれる新しい多言語機能相互作用モジュールを提案する。
また,ビデオ中のフレームの表現不足を解消するため,CMFIと呼ばれる音声とテキストのクロスモーダルなインタラクションモジュールも導入した。
論文 参考訳(メタデータ) (2024-06-21T02:28:06Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval [34.343617836027725]
本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
論文 参考訳(メタデータ) (2022-08-16T10:51:37Z) - Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文 参考訳(メタデータ) (2021-04-09T14:01:36Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。