Fugu-MT 論文翻訳(概要): Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource Languages

論文の概要: Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource Languages

arxiv url: http://arxiv.org/abs/2109.05494v1
Date: Sun, 12 Sep 2021 11:45:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 15:26:45.552526
Title: Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource Languages
Title（参考訳）: 低リソース言語におけるASR構築のための教師なしドメイン適応方式
Authors: Anoop C S, Prathosh A P, A G Ramakrishnan
Abstract要約: スクラッチから自動音声認識システムを構築するには,大量の注釈付き音声データが必要である。ハイリソース言語から学習したドメイン非依存音響モデルにより、低リソース言語におけるASRの性能を向上させることができることを示す。
参考スコア（独自算出の注目度）: 5.908471365011942
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Building an automatic speech recognition (ASR) system from scratch requires a large amount of annotated speech data, which is difficult to collect in many languages. However, there are cases where the low-resource language shares a common acoustic space with a high-resource language having enough annotated data to build an ASR. In such cases, we show that the domain-independent acoustic models learned from the high-resource language through unsupervised domain adaptation (UDA) schemes can enhance the performance of the ASR in the low-resource language. We use the specific example of Hindi in the source domain and Sanskrit in the target domain. We explore two architectures: i) domain adversarial training using gradient reversal layer (GRL) and ii) domain separation networks (DSN). The GRL and DSN architectures give absolute improvements of 6.71% and 7.32%, respectively, in word error rate over the baseline deep neural network model when trained on just 5.5 hours of data in the target domain. We also show that choosing a proper language (Telugu) in the source domain can bring further improvement. The results suggest that UDA schemes can be helpful in the development of ASR systems for low-resource languages, mitigating the hassle of collecting large amounts of annotated speech data.
Abstract（参考訳）: スクラッチから自動音声認識(ASR)システムを構築するには、多くの言語で収集が困難である大量の注釈付き音声データが必要である。しかし、ASRを構築するのに十分なアノテートデータを持つ高リソース言語と、低リソース言語が共通の音響空間を共有する場合もある。このような場合、教師なしドメイン適応(UDA)スキームを通じて高リソース言語から学習したドメイン非依存音響モデルにより、低リソース言語におけるASRの性能が向上することを示す。私たちは、ソースドメインのhindiとターゲットドメインのsanskritの特定の例を使っています。 2つのアーキテクチャを探求します一勾配反転層(GRL)を用いたドメイン逆行訓練及び二ドメイン分離ネットワーク(DSN) grlとdsnアーキテクチャはそれぞれ6.71%と7.32%の絶対的な改善を行い、ターゲットドメインの5.5時間のデータでトレーニングされた場合、ベースラインのディープニューラルネットワークモデルよりもエラー率が高い。また、ソースドメイン内で適切な言語(telugu)を選択することでさらなる改善が期待できることを示す。その結果,UDA スキームは低リソース言語用 ASR システムの開発に有効であることが示唆され,大量の注釈付き音声データ収集の難しさが軽減された。

関連論文リスト

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文参考訳（メタデータ） (2025-11-12T19:48:09Z)
Linguistically Informed Tokenization Improves ASR for Underresourced Languages [0.0]
オーストラリア原住民言語Yan-nhangu上でwav2vec2 ASRモデルを微調整する。言語的に情報を得た音声トークン化システムは、WERとCERを大幅に改善する。 ASRモデルの出力を手作業で補正することは、音声をスクラッチから手書きするよりもはるかに高速である。
論文参考訳（メタデータ） (2025-10-07T20:54:35Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文参考訳（メタデータ） (2024-11-09T11:37:18Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文参考訳（メタデータ） (2024-06-03T15:38:40Z)
Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文参考訳（メタデータ） (2024-04-14T23:44:49Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。 AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文参考訳（メタデータ） (2024-01-19T08:02:37Z)
Replay to Remember: Continual Layer-Specific Fine-tuning for German Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文参考訳（メタデータ） (2023-07-14T11:20:22Z)
Language-universal phonetic encoder for low-resource speech recognition [28.21805271848413]
我々は、低リソースのASR性能を改善するために、International Phonetic Alphabet (IPA) ベースの言語ユニバーサル音声モデルを活用する。我々のアプローチと適応は、ドメインや言語ミスマッチしたシナリオであっても、極端に低リソースな言語に有効です。
論文参考訳（メタデータ） (2023-05-19T10:24:30Z)
Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition Systems A case study for Modern Greek [70.82099772016234]
M2DS2は,大規模な事前学習音声モデルに対して,単純かつサンプル効率のよい微調整手法である。ソースドメインの自己スーパービジョンを含め、トレーニングを安定させ、潜伏表現のモード崩壊を避けることができる。
論文参考訳（メタデータ） (2022-12-31T22:57:30Z)
Distributionally Robust Recurrent Decoders with Random Network Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文参考訳（メタデータ） (2021-10-25T19:26:29Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Improving Cross-Lingual Transfer Learning for End-to-End Speech Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。人間の翻訳によるSTの訓練は必要ないことを示す。低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文参考訳（メタデータ） (2020-06-09T19:34:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。