Fugu-MT 論文翻訳(概要): HateMM: A Multi-Modal Dataset for Hate Video Classification

論文の概要: HateMM: A Multi-Modal Dataset for Hate Video Classification

arxiv url: http://arxiv.org/abs/2305.03915v1
Date: Sat, 6 May 2023 03:39:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 18:45:20.246273
Title: HateMM: A Multi-Modal Dataset for Hate Video Classification
Title（参考訳）: HateMM:Hate Video分類のためのマルチモーダルデータセット
Authors: Mithun Das, Rohit Raj, Punyajoy Saha, Binny Mathew, Manish Gupta, Animesh Mukherjee
Abstract要約: 我々は、ヘイトビデオの分類を深層学習のマルチモーダルモデルを構築し、すべてのモダリティを使用することで、全体的なヘイトスピーチ検出性能が向上することを観察する。我々の研究は、BitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。
参考スコア（独自算出の注目度）: 8.758311170297192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hate speech has become one of the most significant issues in modern society, having implications in both the online and the offline world. Due to this, hate speech research has recently gained a lot of traction. However, most of the work has primarily focused on text media with relatively little work on images and even lesser on videos. Thus, early stage automated video moderation techniques are needed to handle the videos that are being uploaded to keep the platform safe and healthy. With a view to detect and remove hateful content from the video sharing platforms, our work focuses on hate video detection using multi-modalities. To this end, we curate ~43 hours of videos from BitChute and manually annotate them as hate or non-hate, along with the frame spans which could explain the labelling decision. To collect the relevant videos we harnessed search keywords from hate lexicons. We observe various cues in images and audio of hateful videos. Further, we build deep learning multi-modal models to classify the hate videos and observe that using all the modalities of the videos improves the overall hate speech detection performance (accuracy=0.798, macro F1-score=0.790) by ~5.7% compared to the best uni-modal model in terms of macro F1 score. In summary, our work takes the first step toward understanding and modeling hateful videos on video hosting platforms such as BitChute.
Abstract（参考訳）: ヘイトスピーチは現代社会で最も重要な問題の一つとなり、オンラインとオフラインの両方に影響を及ぼしている。このため、最近はヘイトスピーチ研究が注目を集めている。しかし、ほとんどの作品は主にテキストメディアに焦点を合わせており、画像は比較的少ないし、ビデオも少ない。したがって、プラットフォームを安全かつ健全に保つためにアップロードされているビデオを扱うには、早期自動ビデオモデレーション技術が必要である。ビデオ共有プラットフォームからヘイトフルなコンテンツの検出と削除を行うため,本研究はマルチモダリティを用いたヘイトビデオの検出に重点を置いている。この目的のために、BitChuteから43時間のビデオをキュレートし、それをヘイトや非ヘイトとして手動で注釈付けし、フレームスパンにラベル付けの決定を説明する。関連するビデオを集めるために、hat lexiconsの検索キーワードを利用した。画像やヘイトフルビデオの音声の様々な手がかりを観察した。さらに,ハイトビデオの分類を行う深層学習型マルチモーダルモデルを構築し,ビデオのすべてのモダリティを使用することで,マクロF1スコアにおいて最高のユニモーダルモデルと比較して,全体のヘイトスピーチ検出性能(精度=0.798,マクロF1スコア=0.790)が約5.7%向上することを確認した。要約すると、われわれの研究はBitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。

関連論文リスト

Can Text-to-Video Generation help Video-Language Alignment? [53.0276936367765]
最近のビデオ言語アライメントモデルはビデオのセットに基づいて訓練されており、それぞれに関連付けられた正のキャプションと、大きな言語モデルによって生成された負のキャプションがある。この手順の問題点は、否定的なキャプションが言語的バイアスをもたらす可能性があること、すなわち、概念は否定的なものとしてのみ見られ、ビデオと関連しないことである。本研究では,合成ビデオがこの問題を克服するのに有効かどうかを考察する。複数のジェネレータによる予備的な分析では、いくつかのタスクでは約束されているが、合成ビデオは、他のタスクではモデルの性能に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2025-03-24T10:02:22Z)
VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (2024-08-08T05:14:07Z)
MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili [11.049937698021054]
本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClipを提案する。英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
論文参考訳（メタデータ） (2024-07-28T08:19:09Z)
Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model [62.38322742493649]
我々は、編集カテゴリ、すなわちエフェクト、面白い、ミーム、ゲームをカバーするビデオVQAベンチマークを構築した。オープンソースビデオのLMMのほとんどはベンチマークでは不十分であり、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示唆している。 LMMの一般化能力を向上させるため,Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,提案したベンチマークのトレーニングセットを収集した。
論文参考訳（メタデータ） (2024-06-15T03:28:52Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
Identifying False Content and Hate Speech in Sinhala YouTube Videos by Analyzing the Audio [0.0]
本研究は、シンハラのYouTubeビデオにおける暴力や誤報の拡散を最小限に抑える方法を提案する。このアプローチでは、タイトルと記述をオーディオコンテンツと比較することにより、ビデオに偽情報が含まれているかどうかを評価する評価システムを開発する。
論文参考訳（メタデータ） (2024-01-30T08:08:34Z)
Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文参考訳（メタデータ） (2023-09-23T12:06:05Z)
Multi-modal Hate Speech Detection using Machine Learning [0.6793286055326242]
音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
論文参考訳（メタデータ） (2023-06-15T06:46:52Z)
InternVideo: General Video Foundation Models via Generative and Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。 InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-12-06T18:09:49Z)
Emotion Based Hate Speech Detection using Multimodal Learning [0.0]
本稿では,感情を表す聴覚特徴と,ヘイトフルなコンテンツを検出する意味的特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストベースモデルよりも顕著な改善がもたらされることが示唆された。
論文参考訳（メタデータ） (2022-02-13T05:39:47Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。