Fugu-MT 論文翻訳(概要): ADIMA: Abuse Detection In Multilingual Audio

論文の概要: ADIMA: Abuse Detection In Multilingual Audio

arxiv url: http://arxiv.org/abs/2202.07991v1
Date: Wed, 16 Feb 2022 11:09:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-17 23:01:26.644494
Title: ADIMA: Abuse Detection In Multilingual Audio
Title（参考訳）: ADIMA:多言語音声における誤検出
Authors: Vikram Gupta, Rini Sharon, Ramit Sawhney, Debdoot Mukherjee
Abstract要約: 音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。 ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
参考スコア（独自算出の注目度）: 28.64185949388967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Abusive content detection in spoken text can be addressed by performing Automatic Speech Recognition (ASR) and leveraging advancements in natural language processing. However, ASR models introduce latency and often perform sub-optimally for profane words as they are underrepresented in training corpora and not spoken clearly or completely. Exploration of this problem entirely in the audio domain has largely been limited by the lack of audio datasets. Building on these challenges, we propose ADIMA, a novel, linguistically diverse, ethically sourced, expert annotated and well-balanced multilingual profanity detection audio dataset comprising of 11,775 audio samples in 10 Indic languages spanning 65 hours and spoken by 6,446 unique users. Through quantitative experiments across monolingual and cross-lingual zero-shot settings, we take the first step in democratizing audio based content moderation in Indic languages and set forth our dataset to pave future work.
Abstract（参考訳）: 自動音声認識(asr)を行い、自然言語処理の進歩を活用することで、音声テキストにおける乱用コンテンツ検出に対処することができる。しかし、ASRモデルはレイテンシを導入し、しばしば、訓練コーパスで表現され、明確にも完全にも話されていないため、不明瞭な単語に対してサブ最適に実行する。音声領域におけるこの問題の探索は、オーディオデータセットの欠如によってほとんど制限されている。そこで,本研究では,65時間にわたって話され,6,446人の独特なユーザによって話される10のindic言語における11,775の音声サンプルからなる,言語学的に多様で倫理的根拠を生かした音声データセットであるadimaを提案する。モノリンガルおよびクロスリンガルのゼロショット設定に関する定量的実験を通じて、Indic言語における音声ベースのコンテンツモデレーションの民主化の第一歩を踏み出し、我々のデータセットを将来の作業に活用する。

関連論文リスト

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文参考訳（メタデータ） (2025-03-08T16:40:13Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文参考訳（メタデータ） (2024-06-11T07:12:12Z)
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。 XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文参考訳（メタデータ） (2024-03-21T13:52:17Z)
MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector [10.37639482435147]
毒性ラベルを持つ最初の多言語音声ベースデータセットであるMuToxを紹介する。データセットは、英語とスペイン語で20,000の音声発声と、他の19言語で4,000の音声発声で構成されている。
論文参考訳（メタデータ） (2024-01-10T10:37:45Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10～40倍増やす。主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文参考訳（メタデータ） (2023-05-22T22:09:41Z)
Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文参考訳（メタデータ） (2022-10-21T20:03:37Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。 wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文参考訳（メタデータ） (2021-07-15T15:42:43Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。