Fugu-MT 論文翻訳(概要): MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework

論文の概要: MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework

arxiv url: http://arxiv.org/abs/2409.05136v1
Date: Sun, 8 Sep 2024 15:42:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 19:06:48.446066
Title: MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework
Title（参考訳）: MHS-STMA:スケーラブルトランスフォーマーに基づくマルチレベルアテンションフレームワークによるマルチモーダルヘイト音声検出
Authors: Anusha Chhabra, Dinesh Kumar Vishwakarma,
Abstract要約: 本稿では,マルチモーダルヘイトコンテンツ検出のためのスケーラブルアーキテクチャを提案する。それは、注意に基づく深層学習機構、視覚注意機構エンコーダ、キャプション注意機構エンコーダの3つの主要な部分で構成されている。 3つのヘイトスピーチデータセットに対する複数の評価基準を用いたいくつかの研究は、提案されたアーキテクチャの有効性を検証した。
参考スコア（独自算出の注目度）: 15.647035299476894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Social media has a significant impact on people's lives. Hate speech on social media has emerged as one of society's most serious issues recently. Text and pictures are two forms of multimodal data distributed within articles. Unimodal analysis has been the primary emphasis of earlier approaches. Additionally, when doing multimodal analysis, researchers neglect to preserve the distinctive qualities associated with each modality. The present article suggests a scalable architecture for multimodal hate content detection called transformer-based multilevel attention (STMA) to address these shortcomings. This architecture consists of three main parts: a combined attention-based deep learning mechanism, a vision attention mechanism encoder, and a caption attention-mechanism encoder. To identify hate content, each component uses various attention processes and uniquely handles multimodal data. Several studies employing multiple assessment criteria on three hate speech datasets: Hateful memes, MultiOff, and MMHS150K, validate the suggested architecture's efficacy. The outcomes demonstrate that on all three datasets, the suggested strategy performs better than the baseline approaches.
Abstract（参考訳）: ソーシャルメディアは人々の生活に大きな影響を与えている。ソーシャルメディア上でのヘイトスピーチは、近年、社会で最も深刻な問題の一つとして浮上している。テキストと画像は、記事内に分散された2種類のマルチモーダルデータである。ユニモーダル分析は、以前のアプローチの主要な重点となっている。さらに、マルチモーダル分析を行う際、研究者は各モーダルに付随する特徴を保存することを無視する。本稿では,トランスフォーマーに基づくマルチレベルアテンション(STMA)と呼ばれるマルチモーダルヘイトコンテンツ検出のためのスケーラブルなアーキテクチャを提案する。このアーキテクチャは、注意に基づくディープラーニング機構、視覚注意機構エンコーダ、キャプション注意機構エンコーダの3つの主要な部分で構成されている。ヘイトコンテンツを特定するために、各コンポーネントは様々な注意プロセスを使用し、マルチモーダルデータをユニークに処理する。ヘイトフルミーム、MultiOff、MMHS150Kの3つのヘイトスピーチデータセットに対する複数の評価基準を用いて、提案されたアーキテクチャの有効性を検証する。その結果、3つのデータセットすべてにおいて、提案された戦略はベースラインアプローチよりも優れたパフォーマンスを示している。

関連論文リスト

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
Multimodal Referring Segmentation: A Survey [93.24051010753817]
マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
論文参考訳（メタデータ） (2025-08-01T02:14:00Z)
METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文参考訳（メタデータ） (2025-07-22T03:42:51Z)
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文参考訳（メタデータ） (2025-02-11T00:07:40Z)
Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。 TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-22T05:24:19Z)
Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-09-25T15:05:46Z)
Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文参考訳（メタデータ） (2023-09-11T03:19:10Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-04-05T16:20:40Z)
Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文参考訳（メタデータ） (2023-04-03T09:13:59Z)
Video Sentiment Analysis with Bimodal Information-augmented Multi-Head Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。重要な問題は、これらの異種データをどのように融合するかです。バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文参考訳（メタデータ） (2021-03-03T12:30:11Z)
Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。 Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文参考訳（メタデータ） (2020-12-29T18:30:00Z)
A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文参考訳（メタデータ） (2020-12-23T18:37:11Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)
Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2020-04-10T06:31:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。