論文の概要: MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili
- arxiv url: http://arxiv.org/abs/2408.03468v2
- Date: Mon, 12 Aug 2024 06:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 20:04:01.768688
- Title: MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili
- Title(参考訳): MultiHateClip: YouTubeとBilibili上のヘイトフルビデオ検出のための多言語ベンチマークデータセット
- Authors: Han Wang, Tan Rui Yang, Usman Naseem, Roy Ka-Wei Lee,
- Abstract要約: 本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClipを提案する。
英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
- 参考スコア(独自算出の注目度): 11.049937698021054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech is a pressing issue in modern society, with significant effects both online and offline. Recent research in hate speech detection has primarily centered on text-based media, largely overlooking multimodal content such as videos. Existing studies on hateful video datasets have predominantly focused on English content within a Western context and have been limited to binary labels (hateful or non-hateful), lacking detailed contextual information. This study presents MultiHateClip1 , an novel multilingual dataset created through hate lexicons and human annotation. It aims to enhance the detection of hateful videos on platforms such as YouTube and Bilibili, including content in both English and Chinese languages. Comprising 2,000 videos annotated for hatefulness, offensiveness, and normalcy, this dataset provides a cross-cultural perspective on gender-based hate speech. Through a detailed examination of human annotation results, we discuss the differences between Chinese and English hateful videos and underscore the importance of different modalities in hateful and offensive video analysis. Evaluations of state-of-the-art video classification models, such as VLM, GPT-4V and Qwen-VL, on MultiHateClip highlight the existing challenges in accurately distinguishing between hateful and offensive content and the urgent need for models that are both multimodally and culturally nuanced. MultiHateClip represents a foundational advance in enhancing hateful video detection by underscoring the necessity of a multimodal and culturally sensitive approach in combating online hate speech.
- Abstract(参考訳): ヘイトスピーチは、オンラインとオフラインの両方に重大な影響を及ぼす現代社会において、差し迫った問題である。
ヘイトスピーチ検出の最近の研究は、主にテキストベースのメディアに焦点を当てており、主にビデオのようなマルチモーダルコンテンツを見下ろしている。
ヘイトフルなビデオデータセットに関する既存の研究は、主に西洋の文脈における英語コンテンツに焦点を当てており、詳細な文脈情報を持たないバイナリラベル(憎しみや非憎しみ)に限られている。
本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClip1を提案する。
英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
このデータセットは、ヘイトフルネス、不快感、正常さを注釈付けした2000本のビデオで構成されており、ジェンダーベースのヘイトスピーチに関する異文化的な視点を提供する。
人間のアノテーション結果の詳細な検討を通じて、中国語と英語のヘイトフルなビデオの違いを議論し、ヘイトフルなビデオ分析と攻撃的なビデオ分析における異なるモダリティの重要性を浮き彫りにしている。
MultiHateClipでのVLM、GPT-4V、Qwen-VLといった最先端のビデオ分類モデルの評価は、ヘイトフルコンテンツと攻撃的コンテンツを正確に区別する上での既存の課題と、マルチモーダルかつ文化的にニュアンスなモデルに対する緊急の必要性を強調している。
MultiHateClipは、オンラインヘイトスピーチと戦う上で、マルチモーダルで文化的に敏感なアプローチの必要性を強調することによって、ヘイトフルなビデオ検出を強化する基礎的な進歩である。
関連論文リスト
- Advancing Content Moderation: Evaluating Large Language Models for Detecting Sensitive Content Across Text, Images, and Videos [0.1399948157377307]
政府、教育者、そして親はしばしば、そのようなコンテンツの拡散を規制し、制御し、制限する方法についてメディアプラットフォームと対立している。
自然言語処理やコンピュータビジョンといった技術は、センシティブなコンテンツを自動的に識別し、フィルタリングするために広く使われている。
テキストと画像の両方のコンテキストを理解するためのより洗練されたアルゴリズムは、コンテンツ検閲の改善のための部屋を開くかもしれない。
論文 参考訳(メタデータ) (2024-11-26T05:29:18Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - HateMM: A Multi-Modal Dataset for Hate Video Classification [8.758311170297192]
我々は、ヘイトビデオの分類を深層学習のマルチモーダルモデルを構築し、すべてのモダリティを使用することで、全体的なヘイトスピーチ検出性能が向上することを観察する。
我々の研究は、BitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-05-06T03:39:00Z) - 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos [72.69052180249598]
ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。
3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。
本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
論文 参考訳(メタデータ) (2022-03-28T02:47:01Z) - Emotion Based Hate Speech Detection using Multimodal Learning [0.0]
本稿では,感情を表す聴覚特徴と,ヘイトフルなコンテンツを検出する意味的特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。
以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストベースモデルよりも顕著な改善がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-02-13T05:39:47Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。