論文の概要: Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers
- arxiv url: http://arxiv.org/abs/2305.13652v1
- Date: Tue, 23 May 2023 03:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:23:43.938314
- Title: Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers
- Title(参考訳): トランスデューサを用いた低リソース音声認識のための言語間知識伝達と繰り返し擬似ラベル
- Authors: Jan Silovsky, Liuhui Deng, Arturo Argueta, Tresi Arvizo, Roger Hsiao,
Sasha Kuznietsov, Yiu-Chang Lin, Xiaoqiang Xiao, Yuanyuan Zhang
- Abstract要約: 言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
- 参考スコア(独自算出の注目度): 6.017182111335404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice technology has become ubiquitous recently. However, the accuracy, and
hence experience, in different languages varies significantly, which makes the
technology not equally inclusive. The availability of data for different
languages is one of the key factors affecting accuracy, especially in training
of all-neural end-to-end automatic speech recognition systems.
Cross-lingual knowledge transfer and iterative pseudo-labeling are two
techniques that have been shown to be successful for improving the accuracy of
ASR systems, in particular for low-resource languages, like Ukrainian.
Our goal is to train an all-neural Transducer-based ASR system to replace a
DNN-HMM hybrid system with no manually annotated training data. We show that
the Transducer system trained using transcripts produced by the hybrid system
achieves 18% reduction in terms of word error rate. However, using a
combination of cross-lingual knowledge transfer from related languages and
iterative pseudo-labeling, we are able to achieve 35% reduction of the error
rate.
- Abstract(参考訳): 音声技術は最近普及している。
しかし、様々な言語における正確さ、すなわち経験は著しく異なり、この技術は等しく包摂的ではない。
異なる言語に対するデータの可用性は、特に全神経終末自動音声認識システムの訓練において、精度に影響を及ぼす重要な要因の1つである。
言語間の知識伝達と反復的な擬似ラベル化は、特にウクライナ語のような低リソース言語において、ASRシステムの精度を向上させるために成功した2つの手法である。
我々の目標は、DNN-HMMハイブリッドシステムに手動で注釈付きトレーニングデータなしで置き換えるために、全神経トランスデューサベースのASRシステムを訓練することである。
ハイブリッドシステムで生成した書き起こしを用いて学習したトランスデューサシステムは,単語誤り率で18%削減できることを示す。
しかし,関連言語からの言語間知識伝達と反復的な擬似ラベル処理の組み合わせにより,誤り率を35%削減することができる。
関連論文リスト
- Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Cross-lingual Transfer Learning for Fake News Detector in a Low-Resource
Language [0.8122270502556374]
低リソース言語における偽ニュース(FN)を検出する手法の開発は、トレーニングデータの欠如によって妨げられている。
本研究では,ハイソース言語からのトレーニングデータのみを用いて,この問題を解決する。
我々のFN検出システムは、言語を介して検出知識を伝達する逆学習を適用することで、この戦略を容認した。
論文 参考訳(メタデータ) (2022-08-26T07:41:27Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。