Fugu-MT 論文翻訳(概要): QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech Classification

論文の概要: QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech Classification

arxiv url: http://arxiv.org/abs/2012.08312v1
Date: Tue, 15 Dec 2020 14:13:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 11:51:24.888010
Title: QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech Classification
Title（参考訳）: quarc:ヘイトスピーチ分類のための4次マルチモーダル融合アーキテクチャ
Authors: Deepak Kumar, Nalin Kumar and Subhankar Mishra
Abstract要約: モデルはヘイトスピーチ分類のためのMMHS150K twitterデータセット上でテストされる。このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。
参考スコア（独自算出の注目度）: 3.881912803809377
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hate speech, quite common in the age of social media, at times harmless but can also cause mental trauma to someone or even riots in communities. Image of a religious symbol with derogatory comment or video of a man abusing a particular community, all become hate speech with its every modality (such as text, image, and audio) contributing towards it. Models based on a particular modality of hate speech post on social media are not useful, rather, we need models like multi-modal fusion models that consider both image and text while classifying hate speech. Text-image fusion models are heavily parameterized, hence we propose a quaternion neural network-based model having additional fusion components for each pair of modalities. The model is tested on the MMHS150K twitter dataset for hate speech classification. The model shows an almost 75% reduction in parameters and also benefits us in terms of storage space and training time while being at par in terms of performance as compared to its real counterpart.
Abstract（参考訳）: ヘイトスピーチ(Hate speech)は、ソーシャルメディアの時代において非常に一般的であり、時には無害であることもあるが、誰かやコミュニティの暴動に精神的なトラウマを引き起こすこともある。特定のコミュニティを悪用する男性の軽蔑的なコメントやビデオを持つ宗教的なシンボルの画像は、すべて、そのあらゆるモダリティ(テキスト、画像、オーディオなど)がそれへ寄与するヘイトスピーチとなる。ソーシャルメディア上でのヘイトスピーチポストの特定のモダリティに基づくモデルは有用ではなく、ヘイトスピーチを分類しながら画像とテキストの両方を考慮したマルチモーダル融合モデルのようなモデルが必要である。テキスト画像融合モデルは非常にパラメータ化されているため,2対のモダリティに対して融合成分を付加した四元系ニューラルネットワークモデルを提案する。このモデルは、ヘイトスピーチ分類のためのMMHS150K twitterデータセットでテストされる。このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。

関連論文リスト

Advancing Hate Speech Detection with Transformers: Insights from the MetaHate [1.024113475677323]
Twitter、Facebook、Instagram、Redditなどのソーシャルメディアプラットフォームはヘイトスピーチの場となっている。バニラリカレントニューラルネットワーク(RNN)、長期短期記憶(LSTM)、畳み込みニューラルネットワーク(CNN)といったディープラーニングアプローチは良い結果を得たが、長期的な依存関係や非効率的な並列化といった問題によって制限されることが多い。本稿では,MetaHateデータセットを用いたヘイトスピーチ検出のためのトランスフォーマーベースモデルの包括的探索について述べる。
論文参考訳（メタデータ） (2025-08-06T22:36:17Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文参考訳（メタデータ） (2025-03-06T16:53:14Z)
Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文参考訳（メタデータ） (2024-11-03T04:11:33Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文参考訳（メタデータ） (2024-04-08T15:21:17Z)
Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文参考訳（メタデータ） (2024-03-19T03:22:35Z)
ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。 MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文参考訳（メタデータ） (2023-11-12T08:29:41Z)
Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文参考訳（メタデータ） (2023-09-23T12:06:05Z)
Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文参考訳（メタデータ） (2023-09-09T14:52:39Z)
Multi-modal Hate Speech Detection using Machine Learning [0.6793286055326242]
音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
論文参考訳（メタデータ） (2023-06-15T06:46:52Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection [27.05719607624675]
この問題の複数の側面をカバーする最初のベンチマークヘイトスピーチデータセットであるHateXplainを紹介した。データセット内の各投稿は、3つの異なる視点からアノテートされます。トレーニングに人間の合理性を利用するモデルは、目標とするコミュニティに対する意図しない偏見を減らすのに優れている。
論文参考訳（メタデータ） (2020-12-18T15:12:14Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。