論文の概要: Speech Technology for Everyone: Automatic Speech Recognition for
Non-Native English with Transfer Learning
- arxiv url: http://arxiv.org/abs/2110.00678v1
- Date: Fri, 1 Oct 2021 23:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 05:45:33.769157
- Title: Speech Technology for Everyone: Automatic Speech Recognition for
Non-Native English with Transfer Learning
- Title(参考訳): 全員のための音声技術:トランスファー学習を用いた非母国語英語の自動音声認識
- Authors: Toshiko Shibano (1), Xinyi Zhang (1), Mia Taige Li (1), Haejin Cho
(1), Peter Sullivan (1), Muhammad Abdul-Mageed (1) ((1) University of British
Columbia)
- Abstract要約: 非ネイティブな英語音声コーパスであるL2-ARCTIC上で、事前訓練したwav2vec 2.0モデルの微調整を評価する。
本実験は,非母国英語話者を対象としたASRモデルの開発を実証するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the performance gap of English ASR models on L2 English speakers,
we evaluate fine-tuning of pretrained wav2vec 2.0 models (Baevski et al., 2020;
Xu et al., 2021) on L2-ARCTIC, a non-native English speech corpus (Zhao et al.,
2018) under different training settings. We compare \textbf{(a)} models trained
with a combination of diverse accents to ones trained with only specific
accents and \textbf{(b)} results from different single-accent models. Our
experiments demonstrate the promise of developing ASR models for non-native
English speakers, even with small amounts of L2 training data and even without
a language model. Our models also excel in the zero-shot setting where we train
on multiple L2 datasets and test on a blind L2 test set.
- Abstract(参考訳): L2 英語話者における英語 ASR モデルの性能ギャップに対処するため, 英語以外の言語コーパス (Zhao et al., 2018) である L2-ARCTIC 上で, 事前訓練した wav2vec 2.0 モデル (Baevski et al., 2020; Xu et al., 2021) の微調整を行った。
我々は \textbf{
(a)} アクセントと特定のアクセントのみを訓練したアクセントと \textbf{ の組み合わせで訓練したモデル。
(b) 異なる単一明度モデルによる結果である。
実験では,L2学習データが少ない場合や,言語モデルなしでも,非ネイティブな英語話者を対象としたASRモデルの開発を実証した。
私たちのモデルは、複数のL2データセットでトレーニングし、盲目的のL2テストセットでテストするゼロショット設定でも優れています。
関連論文リスト
- Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - Improving Automatic Speech Recognition for Non-Native English with
Transfer Learning and Language Model Decoding [6.68194398006805]
訓練済みwav2vec 2.0モデル citebaevski 2020wav2vec,xu2021self のL1およびL2訓練条件下での微調整について検討した。
We found that that the large self-trained wav2vec 2.0 may be internalizing enough decoding knowledge for clean L1 speech, this is not hold for L2 speech。
論文 参考訳(メタデータ) (2022-02-10T18:13:32Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Scalable Multilingual Frontend for TTS [4.1203601403593275]
本稿では、多くの言語に対応し、新しい言語に容易に拡張可能な、ニューラルテキスト・トゥ・スペーチ(TTS)フロントエンド作成の進捗について述べる。
文レベルでの正規化と発音の両方をS2S(Sequence-to-Sequence)モデルを用いて構築し,モデル化する。
言語に依存しない発音アプローチでは、辞書は使用しません。代わりに、文脈ベースの発音を含む全ての発音がS2Sモデルでキャプチャされます。
論文 参考訳(メタデータ) (2020-04-10T08:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。