論文の概要: MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos
- arxiv url: http://arxiv.org/abs/2512.10408v1
- Date: Thu, 11 Dec 2025 08:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.274128
- Title: MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos
- Title(参考訳): MultiHateLoc:オンラインビデオにおけるマルチモーダル・ヘイトコンテンツの時間的局所化を目指して
- Authors: Qiyue Sun, Tailin Chen, Yinghui Zhang, Yuchen Zhang, Jiangbei Yue, Jianbo Jiao, Zeyu Fu,
- Abstract要約: MultiHateLocは、弱教師付きマルチモーダルヘイトローカライゼーションのためのフレームワークである。
微粒で解釈可能なフレームレベルの予測を生成する。
HateMMとMultiHateClipの実験により,本手法がローカライゼーションタスクにおける最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 22.175314789730667
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid growth of video content on platforms such as TikTok and YouTube has intensified the spread of multimodal hate speech, where harmful cues emerge subtly and asynchronously across visual, acoustic, and textual streams. Existing research primarily focuses on video-level classification, leaving the practically crucial task of temporal localisation, identifying when hateful segments occur, largely unaddressed. This challenge is even more noticeable under weak supervision, where only video-level labels are available, and static fusion or classification-based architectures struggle to capture cross-modal and temporal dynamics. To address these challenges, we propose MultiHateLoc, the first framework designed for weakly-supervised multimodal hate localisation. MultiHateLoc incorporates (1) modality-aware temporal encoders to model heterogeneous sequential patterns, including a tailored text-based preprocessing module for feature enhancement; (2) dynamic cross-modal fusion to adaptively emphasise the most informative modality at each moment and a cross-modal contrastive alignment strategy to enhance multimodal feature consistency; (3) a modality-aware MIL objective to identify discriminative segments under video-level supervision. Despite relying solely on coarse labels, MultiHateLoc produces fine-grained, interpretable frame-level predictions. Experiments on HateMM and MultiHateClip show that our method achieves state-of-the-art performance in the localisation task.
- Abstract(参考訳): TikTokやYouTubeなどのプラットフォームにおけるビデオコンテンツの急速な成長は、視覚、音響、テキストストリームに有害な手がかりが微妙に、非同期に現れるマルチモーダルヘイトスピーチの広がりを増している。
既存の研究はビデオレベルの分類に重点を置いており、時間的ローカライゼーションの事実上重要なタスクを残し、憎しみのあるセグメントがいつ発生したかを特定する。
この課題は、ビデオレベルのラベルのみが利用可能であり、静的な融合や分類に基づくアーキテクチャは、クロスモーダルや時間的ダイナミクスを捉えるのに苦労する、弱い監督下でさらに顕著である。
これらの課題に対処するために、弱教師付きマルチモーダルヘイトローカライゼーション用に設計された最初のフレームワークであるMultiHateLocを提案する。
MultiHateLoc は,(1) 特徴強調のための調整済みテキストベース前処理モジュールを含む異種連続パターンをモデル化するためのモダリティ対応の時間エンコーダ,(2) 瞬間毎の最も情報に重点を置く動的クロスモーダル融合,およびマルチモーダル特徴整合性を高めるためのクロスモーダルコントラストアライメント戦略,(3) 映像レベルの監視下での識別セグメントを識別するためのモダリティ対応 MIL の目的を組み込んだ。
粗いラベルのみに依存するにもかかわらず、MultiHateLocは細粒度で解釈可能なフレームレベルの予測を生成する。
HateMMとMultiHateClipの実験により,本手法がローカライゼーションタスクにおける最先端性能を実現することを示す。
関連論文リスト
- Reasoning-Aware Multimodal Fusion for Hateful Video Detection [28.9889316637547]
オンラインビデオでのヘイトスピーチは、デジタルプラットフォームにとってますます深刻な脅威となっている。
既存の方法はしばしば、モダリティ間の複雑な意味関係を効果的に融合させるのに苦労する。
本稿では,革新的なReasoning-Aware Multimodal Fusionフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T13:24:17Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - Multimodal Alignment with Cross-Attentive GRUs for Fine-Grained Video Understanding [0.0]
本稿では,GRUベースのシーケンスエンコーダとモーダル間アテンション機構を用いて,映像,画像,テキストを融合するフレームワークを提案する。
以上の結果から, 核融合戦略は単調なベースラインを著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2025-07-04T12:35:52Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。