論文の概要: Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource
Languages
- arxiv url: http://arxiv.org/abs/2109.05494v2
- Date: Thu, 16 Sep 2021 07:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 10:43:42.264296
- Title: Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource
Languages
- Title(参考訳): 低リソース言語におけるASR構築のための教師なしドメイン適応方式
- Authors: Anoop C S, Prathosh A P, A G Ramakrishnan
- Abstract要約: スクラッチから自動音声認識システムを構築するには,大量の注釈付き音声データが必要である。
ハイリソース言語から学習したドメイン非依存音響モデルにより、低リソース言語におけるASRの性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 5.908471365011942
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building an automatic speech recognition (ASR) system from scratch requires a
large amount of annotated speech data, which is difficult to collect in many
languages. However, there are cases where the low-resource language shares a
common acoustic space with a high-resource language having enough annotated
data to build an ASR. In such cases, we show that the domain-independent
acoustic models learned from the high-resource language through unsupervised
domain adaptation (UDA) schemes can enhance the performance of the ASR in the
low-resource language. We use the specific example of Hindi in the source
domain and Sanskrit in the target domain. We explore two architectures: i)
domain adversarial training using gradient reversal layer (GRL) and ii) domain
separation networks (DSN). The GRL and DSN architectures give absolute
improvements of 6.71% and 7.32%, respectively, in word error rate over the
baseline deep neural network model when trained on just 5.5 hours of data in
the target domain. We also show that choosing a proper language (Telugu) in the
source domain can bring further improvement. The results suggest that UDA
schemes can be helpful in the development of ASR systems for low-resource
languages, mitigating the hassle of collecting large amounts of annotated
speech data.
- Abstract(参考訳): スクラッチから自動音声認識(ASR)システムを構築するには、多くの言語で収集が困難である大量の注釈付き音声データが必要である。
しかし、ASRを構築するのに十分なアノテートデータを持つ高リソース言語と、低リソース言語が共通の音響空間を共有する場合もある。
このような場合、教師なしドメイン適応(UDA)スキームを通じて高リソース言語から学習したドメイン非依存音響モデルにより、低リソース言語におけるASRの性能が向上することを示す。
私たちは、ソースドメインのhindiとターゲットドメインのsanskritの特定の例を使っています。
2つのアーキテクチャを探求します
一 勾配反転層(GRL)を用いたドメイン逆行訓練及び
二 ドメイン分離ネットワーク(DSN)
grlとdsnアーキテクチャはそれぞれ6.71%と7.32%の絶対的な改善を行い、ターゲットドメインの5.5時間のデータでトレーニングされた場合、ベースラインのディープニューラルネットワークモデルよりもエラー率が高い。
また、ソースドメイン内で適切な言語(telugu)を選択することでさらなる改善が期待できることを示す。
その結果,UDA スキームは低リソース言語用 ASR システムの開発に有効であることが示唆され,大量の注釈付き音声データ収集の難しさが軽減された。
関連論文リスト
- Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文 参考訳(メタデータ) (2023-07-14T11:20:22Z) - Language-universal phonetic encoder for low-resource speech recognition [28.21805271848413]
我々は、低リソースのASR性能を改善するために、International Phonetic Alphabet (IPA) ベースの言語ユニバーサル音声モデルを活用する。
我々のアプローチと適応は、ドメインや言語ミスマッチしたシナリオであっても、極端に低リソースな言語に有効です。
論文 参考訳(メタデータ) (2023-05-19T10:24:30Z) - Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition
Systems A case study for Modern Greek [70.82099772016234]
M2DS2は,大規模な事前学習音声モデルに対して,単純かつサンプル効率のよい微調整手法である。
ソースドメインの自己スーパービジョンを含め、トレーニングを安定させ、潜伏表現のモード崩壊を避けることができる。
論文 参考訳(メタデータ) (2022-12-31T22:57:30Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。