論文の概要: MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework
- arxiv url: http://arxiv.org/abs/2409.05136v1
- Date: Sun, 8 Sep 2024 15:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:06:48.446066
- Title: MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework
- Title(参考訳): MHS-STMA:スケーラブルトランスフォーマーに基づくマルチレベルアテンションフレームワークによるマルチモーダルヘイト音声検出
- Authors: Anusha Chhabra, Dinesh Kumar Vishwakarma,
- Abstract要約: 本稿では,マルチモーダルヘイトコンテンツ検出のためのスケーラブルアーキテクチャを提案する。
それは、注意に基づく深層学習機構、視覚注意機構エンコーダ、キャプション注意機構エンコーダの3つの主要な部分で構成されている。
3つのヘイトスピーチデータセットに対する複数の評価基準を用いたいくつかの研究は、提案されたアーキテクチャの有効性を検証した。
- 参考スコア(独自算出の注目度): 15.647035299476894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media has a significant impact on people's lives. Hate speech on social media has emerged as one of society's most serious issues recently. Text and pictures are two forms of multimodal data distributed within articles. Unimodal analysis has been the primary emphasis of earlier approaches. Additionally, when doing multimodal analysis, researchers neglect to preserve the distinctive qualities associated with each modality. The present article suggests a scalable architecture for multimodal hate content detection called transformer-based multilevel attention (STMA) to address these shortcomings. This architecture consists of three main parts: a combined attention-based deep learning mechanism, a vision attention mechanism encoder, and a caption attention-mechanism encoder. To identify hate content, each component uses various attention processes and uniquely handles multimodal data. Several studies employing multiple assessment criteria on three hate speech datasets: Hateful memes, MultiOff, and MMHS150K, validate the suggested architecture's efficacy. The outcomes demonstrate that on all three datasets, the suggested strategy performs better than the baseline approaches.
- Abstract(参考訳): ソーシャルメディアは人々の生活に大きな影響を与えている。
ソーシャルメディア上でのヘイトスピーチは、近年、社会で最も深刻な問題の一つとして浮上している。
テキストと画像は、記事内に分散された2種類のマルチモーダルデータである。
ユニモーダル分析は、以前のアプローチの主要な重点となっている。
さらに、マルチモーダル分析を行う際、研究者は各モーダルに付随する特徴を保存することを無視する。
本稿では,トランスフォーマーに基づくマルチレベルアテンション(STMA)と呼ばれるマルチモーダルヘイトコンテンツ検出のためのスケーラブルなアーキテクチャを提案する。
このアーキテクチャは、注意に基づくディープラーニング機構、視覚注意機構エンコーダ、キャプション注意機構エンコーダの3つの主要な部分で構成されている。
ヘイトコンテンツを特定するために、各コンポーネントは様々な注意プロセスを使用し、マルチモーダルデータをユニークに処理する。
ヘイトフルミーム、MultiOff、MMHS150Kの3つのヘイトスピーチデータセットに対する複数の評価基準を用いて、提案されたアーキテクチャの有効性を検証する。
その結果、3つのデータセットすべてにおいて、提案された戦略はベースラインアプローチよりも優れたパフォーマンスを示している。
関連論文リスト
- Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:20:40Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z) - Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文 参考訳(メタデータ) (2021-03-03T12:30:11Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。