論文の概要: ADIMA: Abuse Detection In Multilingual Audio
- arxiv url: http://arxiv.org/abs/2202.07991v1
- Date: Wed, 16 Feb 2022 11:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 23:01:26.644494
- Title: ADIMA: Abuse Detection In Multilingual Audio
- Title(参考訳): ADIMA:多言語音声における誤検出
- Authors: Vikram Gupta, Rini Sharon, Ramit Sawhney, Debdoot Mukherjee
- Abstract要約: 音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
- 参考スコア(独自算出の注目度): 28.64185949388967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abusive content detection in spoken text can be addressed by performing
Automatic Speech Recognition (ASR) and leveraging advancements in natural
language processing. However, ASR models introduce latency and often perform
sub-optimally for profane words as they are underrepresented in training
corpora and not spoken clearly or completely. Exploration of this problem
entirely in the audio domain has largely been limited by the lack of audio
datasets. Building on these challenges, we propose ADIMA, a novel,
linguistically diverse, ethically sourced, expert annotated and well-balanced
multilingual profanity detection audio dataset comprising of 11,775 audio
samples in 10 Indic languages spanning 65 hours and spoken by 6,446 unique
users. Through quantitative experiments across monolingual and cross-lingual
zero-shot settings, we take the first step in democratizing audio based content
moderation in Indic languages and set forth our dataset to pave future work.
- Abstract(参考訳): 自動音声認識(asr)を行い、自然言語処理の進歩を活用することで、音声テキストにおける乱用コンテンツ検出に対処することができる。
しかし、ASRモデルはレイテンシを導入し、しばしば、訓練コーパスで表現され、明確にも完全にも話されていないため、不明瞭な単語に対してサブ最適に実行する。
音声領域におけるこの問題の探索は、オーディオデータセットの欠如によってほとんど制限されている。
そこで,本研究では,65時間にわたって話され,6,446人の独特なユーザによって話される10のindic言語における11,775の音声サンプルからなる,言語学的に多様で倫理的根拠を生かした音声データセットであるadimaを提案する。
モノリンガルおよびクロスリンガルのゼロショット設定に関する定量的実験を通じて、Indic言語における音声ベースのコンテンツモデレーションの民主化の第一歩を踏み出し、我々のデータセットを将来の作業に活用する。
関連論文リスト
- MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot
Detector [4.288485933498008]
毒性ラベルを持つ最初の多言語音声ベースデータセットであるMuToxを紹介する。
データセットは、英語とスペイン語で20,000の音声発声と、他の19言語で4,000の音声発声で構成されている。
論文 参考訳(メタデータ) (2024-01-10T10:37:45Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。