論文の概要: Coarse-To-Fine And Cross-Lingual ASR Transfer
- arxiv url: http://arxiv.org/abs/2109.00916v1
- Date: Thu, 2 Sep 2021 13:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 18:32:56.991135
- Title: Coarse-To-Fine And Cross-Lingual ASR Transfer
- Title(参考訳): 粗大化と直交型ASR転送
- Authors: Peter Pol\'ak and Ond\v{r}ej Bojar
- Abstract要約: 翻訳学習は言語間でさえ困難を克服するために提案されている。
チェコ語ASRの英語モデルを再利用して、より少ない関連言語で実験する。
我々は、単語誤り率(WER)と同様に、トレーニング時間におけるかなりのエデュケーションを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end neural automatic speech recognition systems achieved recently
state-of-the-art results, but they require large datasets and extensive
computing resources. Transfer learning has been proposed to overcome these
difficulties even across languages, e.g., German ASR trained from an English
model. We experiment with much less related languages, reusing an English model
for Czech ASR. To simplify the transfer, we propose to use an intermediate
alphabet, Czech without accents, and document that it is a highly effective
strategy. The technique is also useful on Czech data alone, in the style of
coarse-to-fine training. We achieve substantial eductions in training time as
well as word error rate (WER).
- Abstract(参考訳): エンドツーエンドのニューラルネットワーク自動音声認識システムは、最近最先端の結果を達成したが、大規模なデータセットと広範な計算資源が必要である。
トランスファーラーニングは、英語モデルから訓練されたドイツ語 ASR など、言語を越えてもこれらの困難を克服するために提案されている。
チェコ語ASRの英語モデルを再利用して、より少ない関連言語で実験する。
移動を簡略化するために,アクセントのないチェコ語中間アルファベットを用いることを提案し,それが極めて効果的な戦略であることを示す。
この技術は、チェコのデータだけでは、粗大な訓練のスタイルでも有用である。
学習時間と単語誤り率(WER)において,かなりのエダクションを実現している。
関連論文リスト
- Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Transfer Learning for British Sign Language Modelling [0.0]
手話を含む少数言語の研究は、データ不足によって妨げられている。
これは、ある言語で開発されたモデルを第2言語でモデルを構築するための出発点として再利用するトランスファーラーニング手法の開発につながった。
本稿では,英国手話の言語モデリングにおける微調整と層置換の2つの伝達学習手法について検討する。
論文 参考訳(メタデータ) (2020-06-03T10:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。