論文の概要: Identifying False Content and Hate Speech in Sinhala YouTube Videos by
Analyzing the Audio
- arxiv url: http://arxiv.org/abs/2402.01752v1
- Date: Tue, 30 Jan 2024 08:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:05:18.520004
- Title: Identifying False Content and Hate Speech in Sinhala YouTube Videos by
Analyzing the Audio
- Title(参考訳): Sinhala YouTubeビデオにおける音声分析による偽コンテンツとヘイトスピーチの同定
- Authors: W. A. K. M. Wickramaarachchi, Sameeri Sathsara Subasinghe, K. K.
Rashani Tharushika Wijerathna, A. Sahashra Udani Athukorala, Lakmini
Abeywardhana, A. Karunasena
- Abstract要約: 本研究は、シンハラのYouTubeビデオにおける暴力や誤報の拡散を最小限に抑える方法を提案する。
このアプローチでは、タイトルと記述をオーディオコンテンツと比較することにより、ビデオに偽情報が含まれているかどうかを評価する評価システムを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: YouTube faces a global crisis with the dissemination of false information and
hate speech. To counter these issues, YouTube has implemented strict rules
against uploading content that includes false information or promotes hate
speech. While numerous studies have been conducted to reduce offensive
English-language content, there's a significant lack of research on Sinhala
content. This study aims to address the aforementioned gap by proposing a
solution to minimize the spread of violence and misinformation in Sinhala
YouTube videos. The approach involves developing a rating system that assesses
whether a video contains false information by comparing the title and
description with the audio content and evaluating whether the video includes
hate speech. The methodology encompasses several steps, including audio
extraction using the Pytube library, audio transcription via the fine-tuned
Whisper model, hate speech detection employing the distilroberta-base model and
a text classification LSTM model, and text summarization through the fine-tuned
BART-Large- XSUM model. Notably, the Whisper model achieved a 48.99\% word
error rate, while the distilroberta-base model demonstrated an F1 score of
0.856 and a recall value of 0.861 in comparison to the LSTM model, which
exhibited signs of overfitting.
- Abstract(参考訳): YouTubeは偽情報やヘイトスピーチの拡散で世界的危機に直面している。
これらの問題に対処するため、YouTubeは偽情報やヘイトスピーチの宣伝を含むコンテンツをアップロードすることを禁じた。
攻撃的な英語コンテンツを減らすために多くの研究が行われてきたが、シンハラコンテンツに関する研究は極めて不足している。
本研究の目的は、sinhalaのyoutubeビデオにおける暴力や誤情報の拡散を最小限に抑える方法を提案することにある。
このアプローチは、タイトルと説明をオーディオコンテンツと比較し、ビデオにヘイトスピーチが含まれるかどうかを評価する評価システムを開発することを含む。
本手法は,Pytubeライブラリを用いた音声抽出,微調整Whisperモデルによる音声書き起こし,ディスティロベルタベースモデルとテキスト分類LSTMモデルを用いたヘイトスピーチ検出,微調整BART-Large-XSUMモデルによるテキスト要約を含む。
特に、Whisperモデルは48.99 %のワードエラー率を達成し、 distilroberta-base モデルは F1 スコア 0.856 とリコール値 0.861 を示し、LSTM モデルはオーバーフィッティングの兆候を示した。
関連論文リスト
- Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models [50.89022445197919]
我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-31T12:11:17Z) - MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili [11.049937698021054]
本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClipを提案する。
英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
論文 参考訳(メタデータ) (2024-07-28T08:19:09Z) - HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models [0.0]
ヘイトスピーチ(Hate speech)は、個人やグループに対する軽蔑的または差別的な言語をターゲットにした、言語、書面、行動的なコミュニケーションを包含する。
HateTinyLLMは、効率的なヘイトスピーチ検出のための微調整デコーダのみの小さな大規模言語モデル(tinyLLM)に基づく、新しいフレームワークである。
論文 参考訳(メタデータ) (2024-04-26T05:29:35Z) - Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal
Hate Speech Detection using Fused Ensemble Approach [0.23020018305241333]
テキスト埋め込み画像から「ヘイトスピーチ」と「ノーヘイトスピーチ」の2つのラベルに分類し、ヘイトスピーチを検出するための新しいアンサンブル学習手法を提案する。
提案したアンサンブルモデルでは,75.21と74.96を精度,F-1スコア(参照)として有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-23T12:06:05Z) - Multi-modal Hate Speech Detection using Machine Learning [0.6793286055326242]
音声,テキスト,使用済み機械学習,自然言語処理から抽出した特徴画像,特徴値を抽出することにより,ビデオコンテンツからヘイトスピーチを検出するために,マルチモーダルシステムを組み合わせたアプローチが提案されている。
論文 参考訳(メタデータ) (2023-06-15T06:46:52Z) - HateMM: A Multi-Modal Dataset for Hate Video Classification [8.758311170297192]
我々は、ヘイトビデオの分類を深層学習のマルチモーダルモデルを構築し、すべてのモダリティを使用することで、全体的なヘイトスピーチ検出性能が向上することを観察する。
我々の研究は、BitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-05-06T03:39:00Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。