論文の概要: Multimodal Hate Detection Using Dual-Stream Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2509.13515v1
- Date: Tue, 16 Sep 2025 20:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.641359
- Title: Multimodal Hate Detection Using Dual-Stream Graph Neural Networks
- Title(参考訳): デュアルストリームグラフニューラルネットワークを用いたマルチモーダルヘイト検出
- Authors: Jiangbei Yue, Shuonan Yang, Tailin Chen, Jianbo Jiao, Zeyu Fu,
- Abstract要約: 幸せなビデオは、オンラインの安全と現実世界の幸福に深刻なリスクをもたらす。
マルチモーダル分類アプローチはいくつかのモダリティからの情報を統合するが、最小限のヘイトフルコンテンツでさえビデオのカテゴリを定義することを無視するのが一般的である。
本稿では,ビデオ中の構造化情報をキャプチャする,新しいマルチモーダルなデュアルストリームグラフニューラルネットワークモデルを提案する。
- 参考スコア(独自算出の注目度): 20.082029756403976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hateful videos present serious risks to online safety and real-world well-being, necessitating effective detection methods. Although multimodal classification approaches integrating information from several modalities outperform unimodal ones, they typically neglect that even minimal hateful content defines a video's category. Specifically, they generally treat all content uniformly, instead of emphasizing the hateful components. Additionally, existing multimodal methods cannot systematically capture structured information in videos, limiting the effectiveness of multimodal fusion. To address these limitations, we propose a novel multimodal dual-stream graph neural network model. It constructs an instance graph by separating the given video into several instances to extract instance-level features. Then, a complementary weight graph assigns importance weights to these features, highlighting hateful instances. Importance weights and instance features are combined to generate video labels. Our model employs a graph-based framework to systematically model structured relationships within and across modalities. Extensive experiments on public datasets show that our model is state-of-the-art in hateful video classification and has strong explainability. Code is available: https://github.com/Multimodal-Intelligence-Lab-MIL/MultiHateGNN.
- Abstract(参考訳): 憎しみのあるビデオは、オンラインの安全と現実の幸福に深刻なリスクをもたらし、効果的な検出方法を必要とします。
マルチモーダル分類は、いくつかのモダリティからの情報を統合するアプローチが、通常、最小限の憎悪コンテンツでさえビデオのカテゴリを定義することを無視する。
特に、憎しみのあるコンポーネントを強調するのではなく、すべてのコンテンツを一様に扱うのが一般的である。
さらに、既存のマルチモーダル法では、ビデオ内の構造化情報を体系的にキャプチャできないため、マルチモーダル融合の有効性が制限される。
これらの制約に対処するため、我々は新しいマルチモーダルなデュアルストリームグラフニューラルネットワークモデルを提案する。
与えられたビデオをいくつかのインスタンスに分離してインスタンスレベルの特徴を抽出することで、インスタンスグラフを構築する。
そして、補完的な重みグラフがこれらの特徴に重みを割り当て、憎しみのあるインスタンスを強調します。
重み付けとインスタンス機能を組み合わせてビデオラベルを生成する。
我々のモデルは、モダリティ内および横断的な構造化関係を体系的にモデル化するグラフベースのフレームワークを採用している。
公開データセットに対する大規模な実験により、我々のモデルはヘイトフルビデオ分類の最先端であり、説明可能性も強いことが示されている。
コードは、https://github.com/Multimodal-Intelligence-Lab-MIL/MultiHateGNNで入手できる。
関連論文リスト
- Enhanced Multimodal Hate Video Detection via Channel-wise and Modality-wise Fusion [7.728348842555291]
TikTokやYouTubeなどのプラットフォーム上でのビデオコンテンツが急速に普及し、情報発信が変化した。
ヘイトスピーチと戦うための大きな努力にもかかわらず、これらのビデオの検出は、しばしば暗黙的な性質のために難しいままである。
本稿では,Channel-wise and Modality-wise Fusion Mechanismを用いたマルチモーダルヘイトビデオ検出モデルCMFusionを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:24:48Z) - Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。
近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。
本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文 参考訳(メタデータ) (2025-02-11T00:07:40Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Cross-modal Learning for Multi-modal Video Categorization [24.61762520189921]
マルチモーダル機械学習(ML)モデルは、複数のモーダルでデータを処理できる。
本稿では,マルチモーダルML技術を用いたビデオ分類の問題に焦点をあてる。
本稿では,クロスモーダル学習によるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T03:21:15Z) - Exploiting Temporal Coherence for Multi-modal Video Categorization [24.61762520189921]
本稿では,マルチモーダルアプローチによる映像分類の問題に焦点をあてる。
我々は,新しい時間的コヒーレンスに基づく正規化手法を開発し,異なるタイプのモデルに適用した。
本研究では,時間的コヒーレンスによるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-02-07T06:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。