論文の概要: Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech
Detection
- arxiv url: http://arxiv.org/abs/2401.10653v1
- Date: Fri, 19 Jan 2024 11:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:54:58.514241
- Title: Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech
Detection
- Title(参考訳): attentive fusion:マルチモーダルヘイトスピーチ検出のためのトランスフォーマティブベースアプローチ
- Authors: Atanu Mandal, Gargi Roy, Amit Barman, Indranil Dutta, Sudip Kumar
Naskar
- Abstract要約: 本稿では,音声表現とテキスト表現の両方を利用して,スピーチが憎悪を助長するか否かを判断する手法を提案する。
我々の手法は、音声とテキストのサンプリングの両方を組み込んだTransformerフレームワークをベースとしており、Attentive Fusionと呼ばれる独自のレイヤを伴っている。
- 参考スコア(独自算出の注目度): 0.2866102183256175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent surge and exponential growth of social media usage,
scrutinizing social media content for the presence of any hateful content is of
utmost importance. Researchers have been diligently working since the past
decade on distinguishing between content that promotes hatred and content that
does not. Traditionally, the main focus has been on analyzing textual content.
However, recent research attempts have also commenced into the identification
of audio-based content. Nevertheless, studies have shown that relying solely on
audio or text-based content may be ineffective, as recent upsurge indicates
that individuals often employ sarcasm in their speech and writing. To overcome
these challenges, we present an approach to identify whether a speech promotes
hate or not utilizing both audio and textual representations. Our methodology
is based on the Transformer framework that incorporates both audio and text
sampling, accompanied by our very own layer called "Attentive Fusion". The
results of our study surpassed previous state-of-the-art techniques, achieving
an impressive macro F1 score of 0.927 on the Test Set.
- Abstract(参考訳): 近年のソーシャルメディア利用の急増と急激な成長により、ヘイトフルコンテンツの存在をソーシャルメディアのコンテンツを精査することが最も重要である。
過去10年間、研究者は憎しみを促進するコンテンツとそうでないコンテンツの区別に熱心に取り組んできた。
伝統的に、主な焦点はテキストコンテンツの分析だった。
しかし、音声ベースのコンテンツの同定にも近年の研究が始まっている。
それにもかかわらず、音声またはテキストベースのコンテンツのみに頼ることは効果がない可能性があることが研究によって示されている。
これらの課題を克服するために、音声とテキストの両方の表現を利用して、スピーチが憎悪を助長するか否かを特定するアプローチを提案する。
提案手法は,音声とテキストのサンプリングを併用したTransformerフレームワークをベースとして,Attentive Fusionと呼ばれる独自のレイヤを付加する。
その結果,テストセットのマクロF1スコア0.927を達成し,従来の最先端技術を上回る結果を得た。
関連論文リスト
- Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Multilingual and Multimodal Abuse Detection [3.4352862428120123]
本稿では,多言語ソーシャルメディア設定における多モーダル視点からの会話音声における乱用検出を試みる。
提案手法であるMADAは、音声自体以外の2つのモードに明示的にフォーカスする。
提案手法を10の異なる言語で検証し,複数のモダリティを活用することで,0.6%~5.2%の範囲で一貫した利得を観測する。
論文 参考訳(メタデータ) (2022-04-03T13:28:58Z) - Emotion Based Hate Speech Detection using Multimodal Learning [0.0]
本稿では,感情を表す聴覚特徴と,ヘイトフルなコンテンツを検出する意味的特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。
以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストベースモデルよりも顕著な改善がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-02-13T05:39:47Z) - DeepHate: Hate Speech Detection via Multi-Faceted Text Representations [8.192671048046687]
DeepHateは、単語埋め込み、感情、トピック情報などの多面的なテキスト表現を組み合わせた、新しいディープラーニングモデルです。
大規模な実験を行い、3つの大規模公開現実世界のデータセットでDeepHateを評価します。
論文 参考訳(メタデータ) (2021-03-14T16:11:30Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。