論文の概要: ImpliHateVid: A Benchmark Dataset and Two-stage Contrastive Learning Framework for Implicit Hate Speech Detection in Videos
- arxiv url: http://arxiv.org/abs/2508.06570v1
- Date: Thu, 07 Aug 2025 05:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.444891
- Title: ImpliHateVid: A Benchmark Dataset and Two-stage Contrastive Learning Framework for Implicit Hate Speech Detection in Videos
- Title(参考訳): ImpliHateVid:ビデオにおける不特定Hate音声検出のためのベンチマークデータセットと2段階コントラスト学習フレームワーク
- Authors: Mohammad Zia Ur Rehman, Anukriti Bhatnagar, Omkar Kabde, Shubhi Bansal, Nagendra Kumar,
- Abstract要約: ビデオに暗黙のヘイトスピーチ検出のための新しいデータセット、ImpliHateVidを導入する。
ImpliHateVidは、509本の暗黙のヘイトビデオ、500本の明示的なヘイトビデオ、1000本の非ヘイトビデオからなる2,009本のビデオで構成されている。
また,ビデオにおけるヘイトスピーチ検出のための2段階のコントラスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.37865171120254354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The existing research has primarily focused on text and image-based hate speech detection, video-based approaches remain underexplored. In this work, we introduce a novel dataset, ImpliHateVid, specifically curated for implicit hate speech detection in videos. ImpliHateVid consists of 2,009 videos comprising 509 implicit hate videos, 500 explicit hate videos, and 1,000 non-hate videos, making it one of the first large-scale video datasets dedicated to implicit hate detection. We also propose a novel two-stage contrastive learning framework for hate speech detection in videos. In the first stage, we train modality-specific encoders for audio, text, and image using contrastive loss by concatenating features from the three encoders. In the second stage, we train cross-encoders using contrastive learning to refine multimodal representations. Additionally, we incorporate sentiment, emotion, and caption-based features to enhance implicit hate detection. We evaluate our method on two datasets, ImpliHateVid for implicit hate speech detection and another dataset for general hate speech detection in videos, HateMM dataset, demonstrating the effectiveness of the proposed multimodal contrastive learning for hateful content detection in videos and the significance of our dataset.
- Abstract(参考訳): 既存の研究は主にテキストと画像に基づくヘイトスピーチの検出に重点を置いている。
本研究では,ビデオにおける暗黙のヘイトスピーチ検出のための新しいデータセットであるImpliHateVidを紹介する。
ImpliHateVidは、509本の暗黙のヘイトビデオ、500本の明示的なヘイトビデオ、1000本の非ヘイトビデオからなる2,009本のビデオで構成されており、暗黙のヘイト検出に特化した最初の大規模ビデオデータセットの1つである。
また,ビデオにおけるヘイトスピーチ検出のための2段階のコントラスト学習フレームワークを提案する。
第1段階では、3つのエンコーダの特徴を連結することにより、コントラストロスを用いた音声、テキスト、画像のモーダリティ特化エンコーダを訓練する。
第2段階では、コントラスト学習を用いてクロスエンコーダを訓練し、マルチモーダル表現を洗練させる。
さらに、感情、感情、キャプションに基づく特徴を取り入れて、暗黙のヘイト検出を強化する。
我々は、暗黙的ヘイトスピーチ検出のためのImpliHateVidと、ビデオにおける一般的なヘイトスピーチ検出のための別のデータセットであるHateMMデータセットと、ビデオにおけるヘイトフルコンテンツ検出のためのマルチモーダルコントラスト学習の有効性と、我々のデータセットの重要性を実証した。
関連論文リスト
- Multi-modal Hate Speech Detection using Machine Learning [0.6793286055326242]
音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
論文 参考訳(メタデータ) (2023-06-15T06:46:52Z) - HateMM: A Multi-Modal Dataset for Hate Video Classification [8.758311170297192]
我々は、ヘイトビデオの分類を深層学習のマルチモーダルモデルを構築し、すべてのモダリティを使用することで、全体的なヘイトスピーチ検出性能が向上することを観察する。
我々の研究は、BitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-05-06T03:39:00Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。