論文の概要: Revealing Temporal Label Noise in Multimodal Hateful Video Classification
- arxiv url: http://arxiv.org/abs/2508.04900v1
- Date: Wed, 06 Aug 2025 21:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.653689
- Title: Revealing Temporal Label Noise in Multimodal Hateful Video Classification
- Title(参考訳): マルチモーダルヘイトフルビデオ分類における時間ラベルノイズの除去
- Authors: Shuonan Yang, Tailin Chen, Rahul Singh, Jiangbei Yue, Jianbo Jiao, Zeyu Fu,
- Abstract要約: ラベルのあいまいさがきめ細かなアプローチによる影響について検討する。
我々は、アノテーション付きタイムスタンプを使用して、HateMMとMultiHateClipの英語データセットから憎しみのあるビデオをトリムする。
次に、これらのトリミングされたセグメントの探索分析を行い、ヘイトフルコンテンツと非ヘイトフルコンテンツの両方の分布と特性について検討する。
- 参考スコア(独自算出の注目度): 17.69786804367003
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid proliferation of online multimedia content has intensified the spread of hate speech, presenting critical societal and regulatory challenges. While recent work has advanced multimodal hateful video detection, most approaches rely on coarse, video-level annotations that overlook the temporal granularity of hateful content. This introduces substantial label noise, as videos annotated as hateful often contain long non-hateful segments. In this paper, we investigate the impact of such label ambiguity through a fine-grained approach. Specifically, we trim hateful videos from the HateMM and MultiHateClip English datasets using annotated timestamps to isolate explicitly hateful segments. We then conduct an exploratory analysis of these trimmed segments to examine the distribution and characteristics of both hateful and non-hateful content. This analysis highlights the degree of semantic overlap and the confusion introduced by coarse, video-level annotations. Finally, controlled experiments demonstrated that time-stamp noise fundamentally alters model decision boundaries and weakens classification confidence, highlighting the inherent context dependency and temporal continuity of hate speech expression. Our findings provide new insights into the temporal dynamics of multimodal hateful videos and highlight the need for temporally aware models and benchmarks for improved robustness and interpretability. Code and data are available at https://github.com/Multimodal-Intelligence-Lab-MIL/HatefulVideoLabelNoise.
- Abstract(参考訳): オンラインマルチメディアコンテンツの急速な普及はヘイトスピーチの拡散を激化させ、社会的および規制上の重要な課題を提示している。
最近の研究では、マルチモーダルなヘイトフルなビデオ検出が進んでいるが、ほとんどのアプローチは、ヘイトフルなコンテンツの時間的粒度を無視する粗いビデオレベルのアノテーションに依存している。
これは、ヘイトフル(ヘイトフル)と注釈されたビデオが、しばしば長い非ヘイトフルなセグメントを含んでいるため、かなりのラベルノイズをもたらす。
本稿では,そのようなラベルのあいまいさが,きめ細かいアプローチによる影響について検討する。
具体的には、アノテートされたタイムスタンプを使用して、HateMMとMultiHateClipの英語データセットからヘイトフルなビデオをトリミングし、明確にヘイトフルなセグメントを分離する。
次に、これらのトリミングされたセグメントの探索分析を行い、ヘイトフルコンテンツと非ヘイトフルコンテンツの両方の分布と特性について検討する。
この分析は、意味的重複の程度と、粗いビデオレベルのアノテーションによってもたらされる混乱を浮き彫りにする。
最後に,時間スタンプノイズがモデル決定境界を根本的に変更し,分類信頼度を低下させ,ヘイトスピーチの文脈依存性と時間的連続性を強調させる実験を行った。
本研究は、マルチモーダルヘイトフルビデオの時間的ダイナミクスに関する新たな知見を提供し、堅牢性と解釈可能性を向上させるための時間的認識モデルとベンチマークの必要性を強調した。
コードとデータはhttps://github.com/Multimodal-Intelligence-Lab-MIL/HatefulVideoLabelNoiseで公開されている。
関連論文リスト
- HateClipSeg: A Segment-Level Annotated Dataset for Fine-Grained Hate Video Detection [8.323983138164547]
HateClipSegはビデオレベルとセグメントレベルのアノテーションを備えた大規模マルチモーダルデータセットである。
私たちの3段階アノテーションプロセスは、アノテータ間の高い合意をもたらす。
結果は現在のモデルにおける大きなギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-08-03T10:46:06Z) - Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion [7.728348842555291]
TikTokやYouTubeなどのプラットフォーム上でのビデオコンテンツが急速に普及し、情報発信が変化した。
ヘイトスピーチと戦うための大きな努力にもかかわらず、これらのビデオの検出は、しばしば暗黙的な性質のために難しいままである。
本稿では,Channel-wise and Modality-wise Fusion Mechanismを用いたマルチモーダルヘイトビデオ検出モデルCMFusionを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:24:48Z) - TIME: Temporal-Sensitive Multi-Dimensional Instruction Tuning and Robust Benchmarking for Video-LLMs [56.92627816895305]
ビデオ大言語モデルは、ビデオ質問応答のようなタスクにおいて顕著なパフォーマンスを達成した。
我々のデータセットは5つの重要な次元にわたる時間的理解の向上に焦点を当てている。
本稿では,時間に敏感なタスクを既存の命令データセットにシームレスに統合するマルチタスクプロンプト微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T03:05:11Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili [11.049937698021054]
本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClipを提案する。
英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
論文 参考訳(メタデータ) (2024-07-28T08:19:09Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。