論文の概要: HuBERT-TR: Reviving Turkish Automatic Speech Recognition with
Self-supervised Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2210.07323v1
- Date: Thu, 13 Oct 2022 19:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:50:47.499550
- Title: HuBERT-TR: Reviving Turkish Automatic Speech Recognition with
Self-supervised Speech Representation Learning
- Title(参考訳): HuBERT-TR:自己教師型音声表現学習によるトルコ語自動音声認識の復活
- Authors: Ali Safaya, Engin Erzin
- Abstract要約: 本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。
HuBERT-TRは、いくつかのトルコのASRデータセットで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 10.378738776547815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the Turkish language is listed among low-resource languages, literature
on Turkish automatic speech recognition (ASR) is relatively old. In this paper,
we present HuBERT-TR, a speech representation model for Turkish based on
HuBERT. HuBERT-TR achieves state-of-the-art results on several Turkish ASR
datasets. We investigate pre-training HuBERT for Turkish with large-scale data
curated from online resources. We pre-train HuBERT-TR using over 6,500 hours of
speech data curated from YouTube that includes extensive variability in terms
of quality and genre. We show that pre-trained models within a multi-lingual
setup are inferior to language-specific models, where our Turkish model
HuBERT-TR base performs better than its x10 times larger multi-lingual
counterpart XLS-R-1B. Moreover, we study the effect of scaling on ASR
performance by scaling our models up to 1B parameters. Our best model yields a
state-of-the-art word error rate of 4.97% on the Turkish Broadcast News
dataset. Models are available at huggingface.co/asafaya .
- Abstract(参考訳): トルコ語は低リソース言語に分類されるが、トルコ語自動音声認識(ASR)に関する文献は比較的古い。
本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。
HuBERT-TRはいくつかのトルコのASRデータセットで最先端の結果を得る。
オンライン資源から収集した大規模データを用いてトルコ語のための事前学習を行う。
我々は、YouTubeから収集された6,500時間以上の音声データを用いて、HumberT-TRを事前訓練する。
トルコ語モデルであるhubert-trは,x10倍の大きさのマルチリンガルモデルであるxls-r-1bよりも優れた性能を示す。
さらに,1Bパラメータまでスケールすることで,ASR性能に及ぼすスケーリングの影響について検討した。
我々の最良のモデルは、トルコ放送ニュースデータセットで最先端の単語エラー率4.97%を得る。
モデルは huggingface.co/asafaya で利用可能である。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Fine-tuning Transformer-based Encoder for Turkish Language Understanding
Tasks [0.0]
トルコ語のためのTransformerベースのモデルとベースラインベンチマークを提供する。
我々は、トルコのBERTモデル、BERTurkを多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2024-01-30T19:27:04Z) - TurkishBERTweet: Fast and Reliable Large Language Model for Social Media
Analysis [4.195270491854775]
約9億のツイートを使って構築されたトルコのソーシャルメディアのための、最初の大規模な事前訓練された言語モデルであるTurrkBERTweetを紹介します。
このモデルは、BERTモデルと同じアーキテクチャで、入力長が小さく、BERTurkより軽量である。
TurkBERTweetは、汎用性において他の選択肢よりも優れており、推論時間が低いことは、大規模なデータセットを処理する上で大きな利点をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-11-29T20:22:44Z) - Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models [0.0]
本研究は,小型・小型・小型・中規模のトルコのBERTモデルを紹介し,評価する。
我々は、複数の情報源から75GB以上のテキストを含む多様なデータセットでこれらのモデルをトレーニングし、マスク予測、感情分析、ニュース分類、ゼロショット分類など、様々なタスクでテストした。
論文 参考訳(メタデータ) (2023-07-26T12:02:30Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - ASR-Generated Text for Language Model Pre-training Applied to Speech
Tasks [20.83731188652985]
我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。
新たなモデル(FlauBERT-Oral)がコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つのダウンストリームタスクに対して評価される。
論文 参考訳(メタデータ) (2022-07-05T08:47:51Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - Czert -- Czech BERT-like Model for Language Representation [0.0]
本稿では, BERT と ALBERT アーキテクチャに基づく最初のチェコ語単言語表現モデルの学習過程について述べる。
私たちは、チェコのデータを含む多言語モデルよりも50倍多い340K以上の文でモデルを事前にトレーニングします。
論文 参考訳(メタデータ) (2021-03-24T07:27:28Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。