論文の概要: Reasoning-Aware Multimodal Fusion for Hateful Video Detection
- arxiv url: http://arxiv.org/abs/2512.02743v1
- Date: Tue, 02 Dec 2025 13:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.888638
- Title: Reasoning-Aware Multimodal Fusion for Hateful Video Detection
- Title(参考訳): ヘイトフルビデオ検出のための共振型マルチモーダルフュージョン
- Authors: Shuonan Yang, Tailin Chen, Jiangbei Yue, Guangliang Cheng, Jianbo Jiao, Zeyu Fu,
- Abstract要約: オンラインビデオでのヘイトスピーチは、デジタルプラットフォームにとってますます深刻な脅威となっている。
既存の方法はしばしば、モダリティ間の複雑な意味関係を効果的に融合させるのに苦労する。
本稿では,革新的なReasoning-Aware Multimodal Fusionフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.9889316637547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hate speech in online videos is posing an increasingly serious threat to digital platforms, especially as video content becomes increasingly multimodal and context-dependent. Existing methods often struggle to effectively fuse the complex semantic relationships between modalities and lack the ability to understand nuanced hateful content. To address these issues, we propose an innovative Reasoning-Aware Multimodal Fusion (RAMF) framework. To tackle the first challenge, we design Local-Global Context Fusion (LGCF) to capture both local salient cues and global temporal structures, and propose Semantic Cross Attention (SCA) to enable fine-grained multimodal semantic interaction. To tackle the second challenge, we introduce adversarial reasoning-a structured three-stage process where a vision-language model generates (i) objective descriptions, (ii) hate-assumed inferences, and (iii) non-hate-assumed inferences-providing complementary semantic perspectives that enrich the model's contextual understanding of nuanced hateful intent. Evaluations on two real-world hateful video datasets demonstrate that our method achieves robust generalisation performance, improving upon state-of-the-art methods by 3% and 7% in Macro-F1 and hate class recall, respectively. We will release the code after the anonymity period ends.
- Abstract(参考訳): オンラインビデオのヘイトスピーチは、特にビデオコンテンツのマルチモーダル化とコンテキスト依存化が進み、デジタルプラットフォームにとってますます深刻な脅威となっている。
既存の方法は、モダリティ間の複雑な意味関係を効果的に解き放つのに苦労し、曖昧な憎しみのあるコンテンツを理解する能力に欠ける。
これらの課題に対処するため、我々は革新的なReasoning-Aware Multimodal Fusion (RAMF)フレームワークを提案する。
最初の課題に取り組むために,ローカル・グローバル・コンテキスト・フュージョン (LGCF) を設計し,局所的なサラリアン・キューとグローバルな時間構造の両方を捉えるとともに,セマンティック・クロス・アテンション (SCA) を提案し,微細なマルチモーダル・セマンティック・インタラクションを実現する。
第2の課題に取り組むために、視覚言語モデルが生成する3段階構造的逆推論を導入する。
(i)客観的な記述
(二)憎しみを前提とする推論、及び
3)非ヘイト推定推論は、モデルが無意味な憎悪の意図に対する文脈的理解を深める相補的な意味的視点を提供する。
実世界の2つのヘイトフルビデオデータセットに対する評価は、我々の手法が堅牢な一般化性能を達成し、Macro-F1における最先端手法を3%と7%改善し、ヘイトクラスリコールを実現していることを示している。
匿名期間が終わったら、コードを公開します。
関連論文リスト
- When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - DFR: A Decompose-Fuse-Reconstruct Framework for Multi-Modal Few-Shot Segmentation [21.536784761515968]
DFR(Decompose, Fuse, Reconstruct)は、マルチモーダルガイダンスを数発のセグメンテーションで効果的に活用するという課題に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-22T16:21:32Z) - MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [19.241274582769037]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文 参考訳(メタデータ) (2025-06-20T14:57:41Z) - Multi-Granular Multimodal Clue Fusion for Meme Understanding [30.697862544992386]
マルチモーダル・ミーム理解(MMU)タスクが注目度を高めている。
MMUは、メタファー認識、感情分析、意図の検出、攻撃性検出といったタスクを実行することで、ミームの意味を探求し、理解することを目的としている。
我々は,MMUを前進させるために,MGMCF(Multi-granular multimodal clue fusion model)を提案する。
論文 参考訳(メタデータ) (2025-03-16T16:16:53Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。