論文の概要: HateMM: A Multi-Modal Dataset for Hate Video Classification
- arxiv url: http://arxiv.org/abs/2305.03915v1
- Date: Sat, 6 May 2023 03:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:45:20.246273
- Title: HateMM: A Multi-Modal Dataset for Hate Video Classification
- Title(参考訳): HateMM:Hate Video分類のためのマルチモーダルデータセット
- Authors: Mithun Das, Rohit Raj, Punyajoy Saha, Binny Mathew, Manish Gupta,
Animesh Mukherjee
- Abstract要約: 我々は、ヘイトビデオの分類を深層学習のマルチモーダルモデルを構築し、すべてのモダリティを使用することで、全体的なヘイトスピーチ検出性能が向上することを観察する。
我々の研究は、BitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。
- 参考スコア(独自算出の注目度): 8.758311170297192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech has become one of the most significant issues in modern society,
having implications in both the online and the offline world. Due to this, hate
speech research has recently gained a lot of traction. However, most of the
work has primarily focused on text media with relatively little work on images
and even lesser on videos. Thus, early stage automated video moderation
techniques are needed to handle the videos that are being uploaded to keep the
platform safe and healthy. With a view to detect and remove hateful content
from the video sharing platforms, our work focuses on hate video detection
using multi-modalities. To this end, we curate ~43 hours of videos from
BitChute and manually annotate them as hate or non-hate, along with the frame
spans which could explain the labelling decision. To collect the relevant
videos we harnessed search keywords from hate lexicons. We observe various cues
in images and audio of hateful videos. Further, we build deep learning
multi-modal models to classify the hate videos and observe that using all the
modalities of the videos improves the overall hate speech detection performance
(accuracy=0.798, macro F1-score=0.790) by ~5.7% compared to the best uni-modal
model in terms of macro F1 score. In summary, our work takes the first step
toward understanding and modeling hateful videos on video hosting platforms
such as BitChute.
- Abstract(参考訳): ヘイトスピーチは現代社会で最も重要な問題の一つとなり、オンラインとオフラインの両方に影響を及ぼしている。
このため、最近はヘイトスピーチ研究が注目を集めている。
しかし、ほとんどの作品は主にテキストメディアに焦点を合わせており、画像は比較的少ないし、ビデオも少ない。
したがって、プラットフォームを安全かつ健全に保つためにアップロードされているビデオを扱うには、早期自動ビデオモデレーション技術が必要である。
ビデオ共有プラットフォームからヘイトフルなコンテンツの検出と削除を行うため,本研究はマルチモダリティを用いたヘイトビデオの検出に重点を置いている。
この目的のために、BitChuteから43時間のビデオをキュレートし、それをヘイトや非ヘイトとして手動で注釈付けし、フレームスパンにラベル付けの決定を説明する。
関連するビデオを集めるために、hat lexiconsの検索キーワードを利用した。
画像やヘイトフルビデオの音声の様々な手がかりを観察した。
さらに,ハイトビデオの分類を行う深層学習型マルチモーダルモデルを構築し,ビデオのすべてのモダリティを使用することで,マクロF1スコアにおいて最高のユニモーダルモデルと比較して,全体のヘイトスピーチ検出性能(精度=0.798,マクロF1スコア=0.790)が約5.7%向上することを確認した。
要約すると、われわれの研究はBitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。
関連論文リスト
- VideoPrism: A Foundational Visual Encoder for Video Understanding [91.33490377573166]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち30で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Identifying False Content and Hate Speech in Sinhala YouTube Videos by
Analyzing the Audio [0.0]
本研究は、シンハラのYouTubeビデオにおける暴力や誤報の拡散を最小限に抑える方法を提案する。
このアプローチでは、タイトルと記述をオーディオコンテンツと比較することにより、ビデオに偽情報が含まれているかどうかを評価する評価システムを開発する。
論文 参考訳(メタデータ) (2024-01-30T08:08:34Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - Multi-modal Hate Speech Detection using Machine Learning [0.6793286055326242]
音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
論文 参考訳(メタデータ) (2023-06-15T06:46:52Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - Micro-video Tagging via Jointly Modeling Social Influence and Tag
Relation [56.23157334014773]
85.7%のマイクロビデオにはアノテーションがない。
既存の手法は、主にビデオコンテンツの分析、ユーザの社会的影響やタグ関係を無視することに焦点を当てている。
構築したヘテロジニアスネットワークにおけるリンク予測問題として,マイクロビデオタギングを定式化する。
論文 参考訳(メタデータ) (2023-03-15T02:13:34Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Emotion Based Hate Speech Detection using Multimodal Learning [0.0]
本稿では,感情を表す聴覚特徴と,ヘイトフルなコンテンツを検出する意味的特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。
以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストベースモデルよりも顕著な改善がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-02-13T05:39:47Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。