論文の概要: Multilingual Bottleneck Features for Improving ASR Performance of
Code-Switched Speech in Under-Resourced Languages
- arxiv url: http://arxiv.org/abs/2011.03118v1
- Date: Sat, 31 Oct 2020 18:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 04:28:33.324137
- Title: Multilingual Bottleneck Features for Improving ASR Performance of
Code-Switched Speech in Under-Resourced Languages
- Title(参考訳): アンダーソース言語におけるコード切替音声のASR性能向上のための多言語ブートネック特徴
- Authors: Trideba Padhi, Astik Biswas, Febe De Wet, Ewald van der Westhuizen,
Thomas Niesler
- Abstract要約: アフリカ語におけるコード切替(CS)音声の自動音声認識のための音響モデリングにおける多言語ボトルネック機能(mBNF)の利点について検討する。
我々は、自由に利用できる多言語NCHLTコーパスの一部である9つの南バントゥー言語を用いてmBNF抽出器を訓練する。
以上の結果から,mBNF 機能の導入は,mBNF を使用せずに訓練したベースラインに対して,コードスイッチした English-isiZulu , English-isiXa , English-Sesotho および English-Setswana 音声に対して,明確な性能向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 12.139300459657974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore the benefits of using multilingual bottleneck
features (mBNF) in acoustic modelling for the automatic speech recognition of
code-switched (CS) speech in African languages. The unavailability of annotated
corpora in the languages of interest has always been a primary challenge when
developing speech recognition systems for this severely under-resourced type of
speech. Hence, it is worthwhile to investigate the potential of using speech
corpora available for other better-resourced languages to improve speech
recognition performance. To achieve this, we train a mBNF extractor using nine
Southern Bantu languages that form part of the freely available multilingual
NCHLT corpus. We append these mBNFs to the existing MFCCs, pitch features and
i-vectors to train acoustic models for automatic speech recognition (ASR) in
the target code-switched languages. Our results show that the inclusion of the
mBNF features leads to clear performance improvements over a baseline trained
without the mBNFs for code-switched English-isiZulu, English-isiXhosa,
English-Sesotho and English-Setswana speech.
- Abstract(参考訳): 本研究では,アフリカ言語におけるコードスイッチト音声の自動音声認識のための音響モデリングにおけるマルチリンガル・ボトルネック機能(mBNF)の利点について検討する。
興味のある言語における注釈付きコーパスの有効性の欠如は、この高度にリソース不足なタイプの音声認識システムを開発する上で、常に主要な課題である。
したがって、音声認識性能を向上させるために、他のより良いソース言語で利用可能な音声コーパスを使用する可能性について検討する価値がある。
そこで我々は,自由な多言語NCHLTコーパスを構成する9つの南バントゥー言語を用いてmBNF抽出器を訓練する。
これらのmBNFを既存のMFCC、ピッチ機能、i-vectorに付加し、ターゲット言語における自動音声認識(ASR)のための音響モデルを訓練する。
以上の結果から,mBNF 機能の導入は,mBNF を使用せずに訓練したベースラインに対して,コードスイッチした English-isiZulu , English-isiXhosa , English-Sesotho および English-Setswana 音声に対して,明確な性能向上をもたらすことが示された。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Voice Conversion Can Improve ASR in Very Low-Resource Settings [32.170748231414365]
本稿では,低音源音声認識を改善するために,VCシステムが言語横断的に利用できるかどうかを検討する。
私たちは、英語で実践的なVCシステムを設計し、訓練するために、最近のいくつかのテクニックを組み合わせています。
その結果,低リソース言語4言語すべてにおいて,有意な量の拡張データを使用する場合,音声認識性能が向上することが判明した。
論文 参考訳(メタデータ) (2021-11-04T07:57:00Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Language ID Prediction from Speech Using Self-Attentive Pooling and
1D-Convolutions [0.0]
このメモは、SIGTYP 2021 Shared Task の言語 ID を音声から予測するための NTR-TSU の提出について説明します。
多くの低リソースおよび絶滅危惧言語では、単一話者記録のみが利用可能であり、ドメインおよび話者不変の言語IDシステムを必要とする。
本研究では,セルフアテンシブプール層を有する畳み込みニューラルネットワークが,言語識別タスクの有望な結果を示すことを示した。
論文 参考訳(メタデータ) (2021-04-24T16:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。