論文の概要: Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion
- arxiv url: http://arxiv.org/abs/2505.12051v1
- Date: Sat, 17 May 2025 15:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.010591
- Title: Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion
- Title(参考訳): チャネルワイドおよびモダリティワイド融合によるマルチモーダルヘイトビデオ検出
- Authors: Yinghui Zhang, Tailin Chen, Yuchen Zhang, Zeyu Fu,
- Abstract要約: TikTokやYouTubeなどのプラットフォーム上でのビデオコンテンツが急速に普及し、情報発信が変化した。
ヘイトスピーチと戦うための大きな努力にもかかわらず、これらのビデオの検出は、しばしば暗黙的な性質のために難しいままである。
本稿では,Channel-wise and Modality-wise Fusion Mechanismを用いたマルチモーダルヘイトビデオ検出モデルCMFusionを提案する。
- 参考スコア(独自算出の注目度): 7.728348842555291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid rise of video content on platforms such as TikTok and YouTube has transformed information dissemination, but it has also facilitated the spread of harmful content, particularly hate videos. Despite significant efforts to combat hate speech, detecting these videos remains challenging due to their often implicit nature. Current detection methods primarily rely on unimodal approaches, which inadequately capture the complementary features across different modalities. While multimodal techniques offer a broader perspective, many fail to effectively integrate temporal dynamics and modality-wise interactions essential for identifying nuanced hate content. In this paper, we present CMFusion, an enhanced multimodal hate video detection model utilizing a novel Channel-wise and Modality-wise Fusion Mechanism. CMFusion first extracts features from text, audio, and video modalities using pre-trained models and then incorporates a temporal cross-attention mechanism to capture dependencies between video and audio streams. The learned features are then processed by channel-wise and modality-wise fusion modules to obtain informative representations of videos. Our extensive experiments on a real-world dataset demonstrate that CMFusion significantly outperforms five widely used baselines in terms of accuracy, precision, recall, and F1 score. Comprehensive ablation studies and parameter analyses further validate our design choices, highlighting the model's effectiveness in detecting hate videos. The source codes will be made publicly available at https://github.com/EvelynZ10/cmfusion.
- Abstract(参考訳): TikTokやYouTubeなどのプラットフォーム上のビデオコンテンツの急速な増加は、情報の拡散に変化をもたらしたが、有害なコンテンツ、特にヘイトビデオの拡散を促した。
ヘイトスピーチと戦うための大きな努力にもかかわらず、これらのビデオの検出は、しばしば暗黙的な性質のために難しいままである。
現在の検出方法は、主に、異なるモーダルの相補的な特徴を不適切にキャプチャする、単調なアプローチに依存している。
マルチモーダル技術はより広い視点を提供するが、多くの人は、ニュアンスド・ヘイトコンテンツを特定するのに不可欠な時間的ダイナミクスとモダリティに関する相互作用を効果的に統合することができない。
本稿では,Channel-wise and Modality-wise Fusion Mechanismを用いたマルチモーダルヘイトビデオ検出モデルCMFusionを提案する。
CMFusionはまず、事前訓練されたモデルを使用して、テキスト、オーディオ、ビデオのモダリティから機能を抽出し、ビデオとオーディオストリーム間の依存関係をキャプチャするための時間的相互アテンションメカニズムを組み込む。
学習した機能は、チャネルワイドおよびモダリティワイド融合モジュールによって処理され、ビデオのインフォメーション表現を得る。
実世界のデータセットに関する広範な実験により、CMFusionは精度、精度、リコール、F1スコアの点で、広く使われている5つのベースラインを大きく上回っていることが示された。
包括的アブレーション研究とパラメータ分析は、ヘイトビデオの検出におけるモデルの有効性を強調し、我々の設計選択をさらに検証する。
ソースコードはhttps://github.com/EvelynZ10/cmfusionで公開されます。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion [22.58710742780161]
CFSumは、粗い微細融合を伴うトランスフォーマーベースのマルチモーダルビデオ要約フレームワークである。
CFSumはビデオ、テキスト、オーディオのモーダル機能を入力として利用し、2段階のトランスフォーマーベースの機能融合フレームワークを組み込んでいる。
論文 参考訳(メタデータ) (2025-03-01T06:13:13Z) - Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。
近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。
本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文 参考訳(メタデータ) (2025-02-11T00:07:40Z) - Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection [44.55891118519547]
本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。
MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する
MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
論文 参考訳(メタデータ) (2024-10-31T04:20:47Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Denoising Bottleneck with Mutual Information Maximization for Video
Multimodal Fusion [30.631733395175765]
ビデオマルチモーダル融合は、ビデオにマルチモーダル信号を統合することを目的としている。
ビデオはより長いマルチモーダルシーケンスを持ち、より冗長性とノイズが視覚とオーディオのモダリティに富んでいる。
本稿では,微細なビデオ融合のためのボトルネック融合モデルを提案する。
論文 参考訳(メタデータ) (2023-05-24T02:39:43Z) - Predicting the Popularity of Micro-videos with Multimodal Variational
Encoder-Decoder Framework [54.194340961353944]
マイクロビデオ人気タスクのためのマルチモーダル変分エンコーダ・デコーダフレームワークを提案する。
MMVEDは、その人気レベルに情報を与えるマイクロビデオの埋め込みを学習する。
Xiguaから収集した公開データセットとデータセットで実施された実験は、提案したMMVEDフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-28T06:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。