Fugu-MT 論文翻訳(概要): Multi-modal Hate Speech Detection using Machine Learning

論文の概要: Multi-modal Hate Speech Detection using Machine Learning

arxiv url: http://arxiv.org/abs/2307.11519v1
Date: Thu, 15 Jun 2023 06:46:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 16:41:52.159794
Title: Multi-modal Hate Speech Detection using Machine Learning
Title（参考訳）: 機械学習を用いたマルチモーダルヘイトスピーチ検出
Authors: Fariha Tahosin Boishakhi, Ponkoj Chandra Shill, Md. Golam Rabiul Alam
Abstract要約: 音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
参考スコア（独自算出の注目度）: 0.6793286055326242
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: With the continuous growth of internet users and media content, it is very hard to track down hateful speech in audio and video. Converting video or audio into text does not detect hate speech accurately as human sometimes uses hateful words as humorous or pleasant in sense and also uses different voice tones or show different action in the video. The state-ofthe-art hate speech detection models were mostly developed on a single modality. In this research, a combined approach of multimodal system has been proposed to detect hate speech from video contents by extracting feature images, feature values extracted from the audio, text and used machine learning and Natural language processing.
Abstract（参考訳）: インターネットユーザーとメディアコンテンツの継続的な成長により、音声やビデオにおける憎悪的なスピーチを追跡することは極めて困難である。ビデオや音声をテキストに変換することは、人間がユーモアや快適さとして憎しみのある言葉を使う場合が多いため、ヘイトスピーチを正確に検出するわけではない。最先端のヘイトスピーチ検出モデルは、主に単一モードで開発された。本研究では,音声から抽出した特徴量,音声,テキストから抽出した特徴量,機械学習と自然言語処理を抽出し,映像コンテンツからヘイトスピーチを検出するマルチモーダルシステムを提案する。

関連論文リスト

Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文参考訳（メタデータ） (2024-11-03T04:11:33Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
HateMM: A Multi-Modal Dataset for Hate Video Classification [8.758311170297192]
我々は、ヘイトビデオの分類を深層学習のマルチモーダルモデルを構築し、すべてのモダリティを使用することで、全体的なヘイトスピーチ検出性能が向上することを観察する。我々の研究は、BitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。
論文参考訳（メタデータ） (2023-05-06T03:39:00Z)
Emotion Based Hate Speech Detection using Multimodal Learning [0.0]
本稿では,感情を表す聴覚特徴と,ヘイトフルなコンテンツを検出する意味的特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストベースモデルよりも顕著な改善がもたらされることが示唆された。
論文参考訳（メタデータ） (2022-02-13T05:39:47Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Textless Speech Emotion Conversion using Decomposed and Discrete Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文参考訳（メタデータ） (2021-11-14T18:16:42Z)
Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。この課題は主に、異なる視覚特性を音声信号から切り離すことである。そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文参考訳（メタデータ） (2021-07-10T10:27:26Z)
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文参考訳（メタデータ） (2021-01-08T18:25:24Z)
AVLnet: Learning Audio-Visual Language Representations from Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。 AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文参考訳（メタデータ） (2020-06-16T14:38:03Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。