論文の概要: ADIMA: Abuse Detection In Multilingual Audio
- arxiv url: http://arxiv.org/abs/2202.07991v1
- Date: Wed, 16 Feb 2022 11:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 23:01:26.644494
- Title: ADIMA: Abuse Detection In Multilingual Audio
- Title(参考訳): ADIMA:多言語音声における誤検出
- Authors: Vikram Gupta, Rini Sharon, Ramit Sawhney, Debdoot Mukherjee
- Abstract要約: 音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
- 参考スコア(独自算出の注目度): 28.64185949388967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abusive content detection in spoken text can be addressed by performing
Automatic Speech Recognition (ASR) and leveraging advancements in natural
language processing. However, ASR models introduce latency and often perform
sub-optimally for profane words as they are underrepresented in training
corpora and not spoken clearly or completely. Exploration of this problem
entirely in the audio domain has largely been limited by the lack of audio
datasets. Building on these challenges, we propose ADIMA, a novel,
linguistically diverse, ethically sourced, expert annotated and well-balanced
multilingual profanity detection audio dataset comprising of 11,775 audio
samples in 10 Indic languages spanning 65 hours and spoken by 6,446 unique
users. Through quantitative experiments across monolingual and cross-lingual
zero-shot settings, we take the first step in democratizing audio based content
moderation in Indic languages and set forth our dataset to pave future work.
- Abstract(参考訳): 自動音声認識(asr)を行い、自然言語処理の進歩を活用することで、音声テキストにおける乱用コンテンツ検出に対処することができる。
しかし、ASRモデルはレイテンシを導入し、しばしば、訓練コーパスで表現され、明確にも完全にも話されていないため、不明瞭な単語に対してサブ最適に実行する。
音声領域におけるこの問題の探索は、オーディオデータセットの欠如によってほとんど制限されている。
そこで,本研究では,65時間にわたって話され,6,446人の独特なユーザによって話される10のindic言語における11,775の音声サンプルからなる,言語学的に多様で倫理的根拠を生かした音声データセットであるadimaを提案する。
モノリンガルおよびクロスリンガルのゼロショット設定に関する定量的実験を通じて、Indic言語における音声ベースのコンテンツモデレーションの民主化の第一歩を踏み出し、我々のデータセットを将来の作業に活用する。
関連論文リスト
- Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector [10.37639482435147]
毒性ラベルを持つ最初の多言語音声ベースデータセットであるMuToxを紹介する。
データセットは、英語とスペイン語で20,000の音声発声と、他の19言語で4,000の音声発声で構成されている。
論文 参考訳(メタデータ) (2024-01-10T10:37:45Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。