論文の概要: TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech
- arxiv url: http://arxiv.org/abs/2601.11178v1
- Date: Fri, 16 Jan 2026 10:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.453577
- Title: TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech
- Title(参考訳): TANDEM:マルチモーダルヘイト音声のための時間認識ニューラル検出
- Authors: Girish A. Koushik, Helen Treharne, Diptesh Kanojia,
- Abstract要約: 本稿では,音声・視覚的ヘイト検出を構造化推論問題に変換する統合フレームワークであるTANDEMを紹介する。
提案手法では,視覚言語モデルと音声言語モデルが相互に最適化される,新しいタンデム強化学習戦略を採用している。
TANDEM はゼロショットとコンテキスト拡張ベースラインを大きく上回り、HateMM のターゲット識別において 0.73 F1 を達成している。
- 参考スコア(独自算出の注目度): 11.020614074201346
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media platforms are increasingly dominated by long-form multimodal content, where harmful narratives are constructed through a complex interplay of audio, visual, and textual cues. While automated systems can flag hate speech with high accuracy, they often function as "black boxes" that fail to provide the granular, interpretable evidence, such as precise timestamps and target identities, required for effective human-in-the-loop moderation. In this work, we introduce TANDEM, a unified framework that transforms audio-visual hate detection from a binary classification task into a structured reasoning problem. Our approach employs a novel tandem reinforcement learning strategy where vision-language and audio-language models optimize each other through self-constrained cross-modal context, stabilizing reasoning over extended temporal sequences without requiring dense frame-level supervision. Experiments across three benchmark datasets demonstrate that TANDEM significantly outperforms zero-shot and context-augmented baselines, achieving 0.73 F1 in target identification on HateMM (a 30% improvement over state-of-the-art) while maintaining precise temporal grounding. We further observe that while binary detection is robust, differentiating between offensive and hateful content remains challenging in multi-class settings due to inherent label ambiguity and dataset imbalance. More broadly, our findings suggest that structured, interpretable alignment is achievable even in complex multimodal settings, offering a blueprint for the next generation of transparent and actionable online safety moderation tools.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、音声、視覚、およびテキストの複雑な相互作用によって有害な物語が構築される、長い形式のマルチモーダルコンテンツに支配されている。
自動化されたシステムはヘイトスピーチを高い精度でフラグ付けするが、しばしば「ブラックボックス」として機能し、正確なタイムスタンプやループ内の効果的なモデレーションに必要なターゲットアイデンティティのような粒度で解釈可能な証拠を提供するのに失敗する。
本研究では,音声・視覚的ヘイト検出をバイナリ分類タスクから構造化推論問題に変換する統合フレームワークであるTANDEMを紹介する。
提案手法では,高密度フレームレベルの監視を必要とせず,拡張時間列に対する推論を安定化させることにより,視覚言語モデルと音声言語モデルとを相互に最適化する,新たなタンデム強化学習手法を採用している。
3つのベンチマークデータセットによる実験により、TANDEMはゼロショットとコンテキスト拡張ベースラインを著しく上回り、HateMM(最先端の30%の改善)のターゲット識別において0.73 F1を達成した。
さらに、バイナリ検出は堅牢であるが、攻撃的コンテンツとヘイトフルコンテンツとの差別化は、固有のラベルの曖昧さとデータセットの不均衡のため、マルチクラス設定では難しいままである。
より広い範囲で見れば、構造化された解釈可能なアライメントは、複雑なマルチモーダル設定でも実現可能であることが示唆され、次世代の透明で行動可能なオンライン安全モデレーションツールの青写真を提供する。
関連論文リスト
- Bridging Temporal and Textual Modalities: A Multimodal Framework for Automated Cloud Failure Root Cause Analysis [0.0]
本稿では,事前学習した言語モデル埋め込み空間と時系列表現を調和させる診断フレームワークを提案する。
本フレームワークは,複合障害モードを含むシナリオにおいて,48.75%の精度で診断精度を向上する。
論文 参考訳(メタデータ) (2026-01-08T08:20:44Z) - MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos [22.175314789730667]
MultiHateLocは、弱教師付きマルチモーダルヘイトローカライゼーションのためのフレームワークである。
微粒で解釈可能なフレームレベルの予測を生成する。
HateMMとMultiHateClipの実験により,本手法がローカライゼーションタスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-11T08:18:22Z) - Reasoning-Aware Multimodal Fusion for Hateful Video Detection [28.9889316637547]
オンラインビデオでのヘイトスピーチは、デジタルプラットフォームにとってますます深刻な脅威となっている。
既存の方法はしばしば、モダリティ間の複雑な意味関係を効果的に融合させるのに苦労する。
本稿では,革新的なReasoning-Aware Multimodal Fusionフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T13:24:17Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Labels or Input? Rethinking Augmentation in Multimodal Hate Detection [9.166963162285064]
マルチモーダルヘイト検出を改善するために,マルチモーダルヘイト検出法を提案する。
まず、素早い構造、監督、訓練のモダリティを体系的に変化させるプロンプト最適化フレームワークを提案する。
次に,2,479個の正中性ミームを生成するマルチモーダルデータ拡張パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-15T21:31:00Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。