論文の概要: cantnlp@DravidianLangTech-2025: A Bag-of-Sounds Approach to Multimodal Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2503.07862v1
- Date: Mon, 10 Mar 2025 21:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:30.895329
- Title: cantnlp@DravidianLangTech-2025: A Bag-of-Sounds Approach to Multimodal Hate Speech Detection
- Title(参考訳): Cantnlp@DravidianLangTech-2025:マルチモーダル・ヘイト音声検出のためのBag-of-Soundsアプローチ
- Authors: Sidney Wong, Andrew Li,
- Abstract要約: 変換メル分光法を用いて音声(音声)データに基づいてヘイトスピーチ検出システムを訓練する。
本研究は,マルチモーダルヘイトスピーチ検出システムの開発において,テキストと音声(オーディオ)データの両方を使用することが可能であることを示す。
- 参考スコア(独自算出の注目度): 3.203071118472151
- License:
- Abstract: This paper presents the systems and results for the Multimodal Social Media Data Analysis in Dravidian Languages (MSMDA-DL) shared task at the Fifth Workshop on Speech, Vision, and Language Technologies for Dravidian Languages (DravidianLangTech-2025). We took a `bag-of-sounds' approach by training our hate speech detection system on the speech (audio) data using transformed Mel spectrogram measures. While our candidate model performed poorly on the test set, our approach offered promising results during training and development for Malayalam and Tamil. With sufficient and well-balanced training data, our results show that it is feasible to use both text and speech (audio) data in the development of multimodal hate speech detection systems.
- Abstract(参考訳): 本稿では,ドラビディアン言語におけるマルチモーダル・ソーシャルメディア・データ分析(MSMDA-DL)の課題と成果を,ドラビディアン・ラングテック-2025(DravidianLangTech-2025)の第5回講演会で紹介する。
我々は,Melスペクトルを用いた音声(音声)データに基づいて,ヘイトスピーチ検出システムを訓練し,"bag-of-sounds"アプローチを採用した。
候補モデルはテストセットでは不十分であったが,マラヤラムとタミルのトレーニングおよび開発において有望な結果が得られた。
十分なトレーニングデータとバランスの取れたトレーニングデータを用いて,マルチモーダルヘイトスピーチ検出システムの開発において,テキストと音声(オーディオ)データの両方を使用することが可能であることを示す。
関連論文リスト
- LLMsAgainstHate @ NLU of Devanagari Script Languages 2025: Hate Speech Detection and Target Identification in Devanagari Languages via Parameter Efficient Fine-Tuning of LLMs [9.234570108225187]
本稿では,ヘイトスピーチ検出とターゲット識別のためのPEFT(Efficient Fine tuning)に基づくソリューションを提案する。
我々は,Devanagariデータセットを用いた複数のLCMの評価を行った(Thapa et al., 2025)。
以上の結果から,Devanagari-scriptedコンテンツに対するアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-12-22T18:38:24Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。