論文の概要: Towards Training-free Multimodal Hate Localisation with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.09637v1
- Date: Tue, 10 Feb 2026 10:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.498211
- Title: Towards Training-free Multimodal Hate Localisation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた訓練不要なマルチモーダル・ヘイト・ローカライゼーションを目指して
- Authors: Yueming Sun, Long Yang, Jianbo Jiao, Zeyu Fu,
- Abstract要約: 本稿では,ヘイトビデオローカライゼーションのための学習自由なLarge Language Model (LLM) ベースのフレームワークであるLELAを提案する。
提案手法は,映像,音声,OCR,音楽,映像コンテキストの5つのモードに分割し,多段プロンプト方式を用いて,各フレームの微妙なヘイトフルスコアを計算する。
- 参考スコア(独自算出の注目度): 21.354548091191393
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The proliferation of hateful content in online videos poses severe threats to individual well-being and societal harmony. However, existing solutions for video hate detection either rely heavily on large-scale human annotations or lack fine-grained temporal precision. In this work, we propose LELA, the first training-free Large Language Model (LLM) based framework for hate video localization. Distinct from state-of-the-art models that depend on supervised pipelines, LELA leverages LLMs and modality-specific captioning to detect and temporally localize hateful content in a training-free manner. Our method decomposes a video into five modalities, including image, speech, OCR, music, and video context, and uses a multi-stage prompting scheme to compute fine-grained hateful scores for each frame. We further introduce a composition matching mechanism to enhance cross-modal reasoning. Experiments on two challenging benchmarks, HateMM and MultiHateClip, demonstrate that LELA outperforms all existing training-free baselines by a large margin. We also provide extensive ablations and qualitative visualizations, establishing LELA as a strong foundation for scalable and interpretable hate video localization.
- Abstract(参考訳): オンラインビデオにおけるヘイトフルコンテンツの普及は、個人の幸福と社会的調和に深刻な脅威をもたらす。
しかし、ビデオヘイト検出のための既存のソリューションは、大規模な人間のアノテーションに大きく依存するか、微妙な時間的精度を欠いている。
本研究では,ヘイトビデオローカライゼーションのための学習自由なLarge Language Model (LLM) ベースのフレームワークLELAを提案する。
教師付きパイプラインに依存する最先端のモデルとは違い、LELAはLLMとモダリティ固有のキャプションを活用して、ヘイトフルなコンテンツをトレーニングなしで検出し、時間的にローカライズする。
提案手法は,映像,音声,OCR,音楽,映像コンテキストの5つのモードに分割し,多段プロンプト方式を用いて,各フレームの微妙なヘイトフルスコアを計算する。
さらに、クロスモーダル推論を強化するための合成マッチング機構を導入する。
HateMMとMultiHateClipという2つの挑戦的なベンチマークの実験は、LELAが既存のトレーニング不要のベースラインを大きなマージンで上回っていることを示している。
我々はまた、拡張性と解釈可能なヘイトビデオローカライゼーションの強力な基盤としてLELAを確立し、広範囲のアブリケーションと質的な視覚化を提供する。
関連論文リスト
- MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos [22.175314789730667]
MultiHateLocは、弱教師付きマルチモーダルヘイトローカライゼーションのためのフレームワークである。
微粒で解釈可能なフレームレベルの予測を生成する。
HateMMとMultiHateClipの実験により,本手法がローカライゼーションタスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-11T08:18:22Z) - Reasoning-Aware Multimodal Fusion for Hateful Video Detection [28.9889316637547]
オンラインビデオでのヘイトスピーチは、デジタルプラットフォームにとってますます深刻な脅威となっている。
既存の方法はしばしば、モダリティ間の複雑な意味関係を効果的に融合させるのに苦労する。
本稿では,革新的なReasoning-Aware Multimodal Fusionフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T13:24:17Z) - SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs [37.52094200472755]
本稿では,既存のビデオ関連LVLMの言語バイアスから,ほとんど探索されていない問題を明らかにする。
ビデオ関連LVLMの言語バイアスを評価するために,まずビデオ言語バイアス評価ベンチマークを収集する。
また,言語バイアスに対処するため,Multi-branch Contrastive Decoding (MCD)を提案する。
論文 参考訳(メタデータ) (2025-02-23T15:04:23Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。