論文の概要: QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech
Classification
- arxiv url: http://arxiv.org/abs/2012.08312v1
- Date: Tue, 15 Dec 2020 14:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 11:51:24.888010
- Title: QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech
Classification
- Title(参考訳): quarc:ヘイトスピーチ分類のための4次マルチモーダル融合アーキテクチャ
- Authors: Deepak Kumar, Nalin Kumar and Subhankar Mishra
- Abstract要約: モデルはヘイトスピーチ分類のためのMMHS150K twitterデータセット上でテストされる。
このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。
- 参考スコア(独自算出の注目度): 3.881912803809377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech, quite common in the age of social media, at times harmless but
can also cause mental trauma to someone or even riots in communities. Image of
a religious symbol with derogatory comment or video of a man abusing a
particular community, all become hate speech with its every modality (such as
text, image, and audio) contributing towards it. Models based on a particular
modality of hate speech post on social media are not useful, rather, we need
models like multi-modal fusion models that consider both image and text while
classifying hate speech. Text-image fusion models are heavily parameterized,
hence we propose a quaternion neural network-based model having additional
fusion components for each pair of modalities. The model is tested on the
MMHS150K twitter dataset for hate speech classification. The model shows an
almost 75% reduction in parameters and also benefits us in terms of storage
space and training time while being at par in terms of performance as compared
to its real counterpart.
- Abstract(参考訳): ヘイトスピーチ(Hate speech)は、ソーシャルメディアの時代において非常に一般的であり、時には無害であることもあるが、誰かやコミュニティの暴動に精神的なトラウマを引き起こすこともある。
特定のコミュニティを悪用する男性の軽蔑的なコメントやビデオを持つ宗教的なシンボルの画像は、すべて、そのあらゆるモダリティ(テキスト、画像、オーディオなど)がそれへ寄与するヘイトスピーチとなる。
ソーシャルメディア上でのヘイトスピーチポストの特定のモダリティに基づくモデルは有用ではなく、ヘイトスピーチを分類しながら画像とテキストの両方を考慮したマルチモーダル融合モデルのようなモデルが必要である。
テキスト画像融合モデルは非常にパラメータ化されているため,2対のモダリティに対して融合成分を付加した四元系ニューラルネットワークモデルを提案する。
このモデルは、ヘイトスピーチ分類のためのMMHS150K twitterデータセットでテストされる。
このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。
関連論文リスト
- ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Multi-modal Hate Speech Detection using Machine Learning [0.6793286055326242]
音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
論文 参考訳(メタデータ) (2023-06-15T06:46:52Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Interpretable Multi-Modal Hate Speech Detection [32.36781061930129]
特定の憎悪表現が作られる社会文化的文脈とともに、テキストの意味を効果的に捉えることができるディープニューラルマルチモーダルモデルを提案する。
我々のモデルは、既存のヘイトスピーチ分類アプローチを上回ることができる。
論文 参考訳(メタデータ) (2021-03-02T10:12:26Z) - HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection [27.05719607624675]
この問題の複数の側面をカバーする最初のベンチマークヘイトスピーチデータセットであるHateXplainを紹介した。
データセット内の各投稿は、3つの異なる視点からアノテートされます。
トレーニングに人間の合理性を利用するモデルは、目標とするコミュニティに対する意図しない偏見を減らすのに優れている。
論文 参考訳(メタデータ) (2020-12-18T15:12:14Z) - An Online Multilingual Hate speech Recognition System [13.87667165678441]
6つのデータセットを1つの同質なデータセットに組み合わせて分析し、3つのクラスに分類します。
ほぼリアルタイムで有効なメトリックでページを識別し、スコア付けするツールを作成し、フィードバックでモデルを再トレーニングします。
英語とヒンディー語という2つの言語モデル上での多言語モデルの競合性能を証明し、ほとんどの単言語モデルに匹敵するあるいは優れた性能をもたらす。
論文 参考訳(メタデータ) (2020-11-23T16:33:48Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。