論文の概要: QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech
Classification
- arxiv url: http://arxiv.org/abs/2012.08312v1
- Date: Tue, 15 Dec 2020 14:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 11:51:24.888010
- Title: QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech
Classification
- Title(参考訳): quarc:ヘイトスピーチ分類のための4次マルチモーダル融合アーキテクチャ
- Authors: Deepak Kumar, Nalin Kumar and Subhankar Mishra
- Abstract要約: モデルはヘイトスピーチ分類のためのMMHS150K twitterデータセット上でテストされる。
このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。
- 参考スコア(独自算出の注目度): 3.881912803809377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech, quite common in the age of social media, at times harmless but
can also cause mental trauma to someone or even riots in communities. Image of
a religious symbol with derogatory comment or video of a man abusing a
particular community, all become hate speech with its every modality (such as
text, image, and audio) contributing towards it. Models based on a particular
modality of hate speech post on social media are not useful, rather, we need
models like multi-modal fusion models that consider both image and text while
classifying hate speech. Text-image fusion models are heavily parameterized,
hence we propose a quaternion neural network-based model having additional
fusion components for each pair of modalities. The model is tested on the
MMHS150K twitter dataset for hate speech classification. The model shows an
almost 75% reduction in parameters and also benefits us in terms of storage
space and training time while being at par in terms of performance as compared
to its real counterpart.
- Abstract(参考訳): ヘイトスピーチ(Hate speech)は、ソーシャルメディアの時代において非常に一般的であり、時には無害であることもあるが、誰かやコミュニティの暴動に精神的なトラウマを引き起こすこともある。
特定のコミュニティを悪用する男性の軽蔑的なコメントやビデオを持つ宗教的なシンボルの画像は、すべて、そのあらゆるモダリティ(テキスト、画像、オーディオなど)がそれへ寄与するヘイトスピーチとなる。
ソーシャルメディア上でのヘイトスピーチポストの特定のモダリティに基づくモデルは有用ではなく、ヘイトスピーチを分類しながら画像とテキストの両方を考慮したマルチモーダル融合モデルのようなモデルが必要である。
テキスト画像融合モデルは非常にパラメータ化されているため,2対のモダリティに対して融合成分を付加した四元系ニューラルネットワークモデルを提案する。
このモデルは、ヘイトスピーチ分類のためのMMHS150K twitterデータセットでテストされる。
このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。
関連論文リスト
- Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Multi-modal Hate Speech Detection using Machine Learning [0.6793286055326242]
音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
論文 参考訳(メタデータ) (2023-06-15T06:46:52Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection [27.05719607624675]
この問題の複数の側面をカバーする最初のベンチマークヘイトスピーチデータセットであるHateXplainを紹介した。
データセット内の各投稿は、3つの異なる視点からアノテートされます。
トレーニングに人間の合理性を利用するモデルは、目標とするコミュニティに対する意図しない偏見を減らすのに優れている。
論文 参考訳(メタデータ) (2020-12-18T15:12:14Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。