論文の概要: Thai Wav2Vec2.0 with CommonVoice V8
- arxiv url: http://arxiv.org/abs/2208.04799v1
- Date: Tue, 9 Aug 2022 14:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:55:36.536374
- Title: Thai Wav2Vec2.0 with CommonVoice V8
- Title(参考訳): タイのWav2Vec2.0とCommonVoice V8
- Authors: Wannaphong Phatthiyaphaibun, Chompakorn Chaksangchaichot, Peerat
Limkonchotiwat, Ekapol Chuangsuwanich, Sarana Nutanong
- Abstract要約: 最も一般に公開されている自動音声認識(ASR)モデルは英語で利用可能であり、タイ語でのみ利用可能である。
タイのASRモデルのほとんどはクローズドソースであり、既存のオープンソースモデルのパフォーマンスは堅牢性に欠ける。
我々はタイのコモンVoiceコーパスV8を用いて事前訓練されたXLSR-Wav2Vecモデル上で新しいASRモデルを訓練し、ASRモデルの性能を高めるためにトリグラム言語モデルを訓練する。
- 参考スコア(独自算出の注目度): 7.818074118880726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Automatic Speech Recognition (ASR), a system that converts audio
into text, has caught a lot of attention in the machine learning community.
Thus, a lot of publicly available models were released in HuggingFace. However,
most of these ASR models are available in English; only a minority of the
models are available in Thai. Additionally, most of the Thai ASR models are
closed-sourced, and the performance of existing open-sourced models lacks
robustness. To address this problem, we train a new ASR model on a pre-trained
XLSR-Wav2Vec model with the Thai CommonVoice corpus V8 and train a trigram
language model to boost the performance of our ASR model. We hope that our
models will be beneficial to individuals and the ASR community in Thailand.
- Abstract(参考訳): 近年,音声をテキストに変換する自動音声認識(ASR)が,機械学習コミュニティで注目を集めている。
したがって、多くの公開モデルがHuggingFaceでリリースされた。
しかし、これらのasrモデルのほとんどは英語で利用可能であり、タイでは少数のモデルのみが利用可能である。
さらに、タイのASRモデルのほとんどはクローズドソースであり、既存のオープンソースモデルのパフォーマンスは堅牢性に欠ける。
この問題に対処するため,タイの共通VoiceコーパスV8を用いて事前学習したXLSR-Wav2Vecモデル上で新しいASRモデルをトレーニングし,ASRモデルの性能を高めるためにトリグラム言語モデルを訓練する。
タイの個人やasrコミュニティにとって、私たちのモデルが有益になることを願っています。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Self-supervised Speech Representations Still Struggle with African American Vernacular English [28.223877889211803]
疎化言語変種話者のためのASRシステムの低性能化は、よく文書化された現象である。
AAVEとメインストリーム・アメリカン・イングリッシュのASR性能のギャップを埋めることができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-26T13:29:25Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。
次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。
改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文 参考訳(メタデータ) (2023-05-24T11:45:42Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing
N-gram Language Models [0.0]
ポストプロセッサとしてn-gram言語モデルを追加することにより,ASRモデルの性能を大幅に向上させる方法について述べる。
我々は既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成する。
論文 参考訳(メタデータ) (2022-09-13T17:59:21Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Phone Features Improve Speech Translation [69.54616570679343]
音声翻訳の終末モデル(ST)はより緊密にカップル音声認識(ASR)と機械翻訳(MT)を行う
カスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。
これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドのモデルとカスケードのギャップを埋め、これまでの学術的成果を最大9BLEUで上回ります。
論文 参考訳(メタデータ) (2020-05-27T22:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。