Fugu-MT 論文翻訳(概要): HuBERT-TR: Reviving Turkish Automatic Speech Recognition with Self-supervised Speech Representation Learning

論文の概要: HuBERT-TR: Reviving Turkish Automatic Speech Recognition with Self-supervised Speech Representation Learning

arxiv url: http://arxiv.org/abs/2210.07323v1
Date: Thu, 13 Oct 2022 19:46:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 15:50:47.499550
Title: HuBERT-TR: Reviving Turkish Automatic Speech Recognition with Self-supervised Speech Representation Learning
Title（参考訳）: HuBERT-TR:自己教師型音声表現学習によるトルコ語自動音声認識の復活
Authors: Ali Safaya, Engin Erzin
Abstract要約: 本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。 HuBERT-TRは、いくつかのトルコのASRデータセットで最先端の結果を達成する。
参考スコア（独自算出の注目度）: 10.378738776547815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While the Turkish language is listed among low-resource languages, literature on Turkish automatic speech recognition (ASR) is relatively old. In this paper, we present HuBERT-TR, a speech representation model for Turkish based on HuBERT. HuBERT-TR achieves state-of-the-art results on several Turkish ASR datasets. We investigate pre-training HuBERT for Turkish with large-scale data curated from online resources. We pre-train HuBERT-TR using over 6,500 hours of speech data curated from YouTube that includes extensive variability in terms of quality and genre. We show that pre-trained models within a multi-lingual setup are inferior to language-specific models, where our Turkish model HuBERT-TR base performs better than its x10 times larger multi-lingual counterpart XLS-R-1B. Moreover, we study the effect of scaling on ASR performance by scaling our models up to 1B parameters. Our best model yields a state-of-the-art word error rate of 4.97% on the Turkish Broadcast News dataset. Models are available at huggingface.co/asafaya .
Abstract（参考訳）: トルコ語は低リソース言語に分類されるが、トルコ語自動音声認識(ASR)に関する文献は比較的古い。本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。 HuBERT-TRはいくつかのトルコのASRデータセットで最先端の結果を得る。オンライン資源から収集した大規模データを用いてトルコ語のための事前学習を行う。我々は、YouTubeから収集された6,500時間以上の音声データを用いて、HumberT-TRを事前訓練する。トルコ語モデルであるhubert-trは,x10倍の大きさのマルチリンガルモデルであるxls-r-1bよりも優れた性能を示す。さらに,1Bパラメータまでスケールすることで,ASR性能に及ぼすスケーリングの影響について検討した。我々の最良のモデルは、トルコ放送ニュースデータセットで最先端の単語エラー率4.97%を得る。モデルは huggingface.co/asafaya で利用可能である。

関連論文リスト

Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文参考訳（メタデータ） (2024-09-27T03:31:32Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Fine-tuning Transformer-based Encoder for Turkish Language Understanding Tasks [0.0]
トルコ語のためのTransformerベースのモデルとベースラインベンチマークを提供する。我々は、トルコのBERTモデル、BERTurkを多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価した。
論文参考訳（メタデータ） (2024-01-30T19:27:04Z)
TurkishBERTweet: Fast and Reliable Large Language Model for Social Media Analysis [4.195270491854775]
約9億のツイートを使って構築されたトルコのソーシャルメディアのための、最初の大規模な事前訓練された言語モデルであるTurrkBERTweetを紹介します。このモデルは、BERTモデルと同じアーキテクチャで、入力長が小さく、BERTurkより軽量である。 TurkBERTweetは、汎用性において他の選択肢よりも優れており、推論時間が低いことは、大規模なデータセットを処理する上で大きな利点をもたらすことを実証する。
論文参考訳（メタデータ） (2023-11-29T20:22:44Z)
Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models [0.0]
本研究は,小型・小型・小型・中規模のトルコのBERTモデルを紹介し,評価する。我々は、複数の情報源から75GB以上のテキストを含む多様なデータセットでこれらのモデルをトレーニングし、マスク予測、感情分析、ニュース分類、ゼロショット分類など、様々なタスクでテストした。
論文参考訳（メタデータ） (2023-07-26T12:02:30Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks [20.83731188652985]
我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。新たなモデル(FlauBERT-Oral)がコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つのダウンストリームタスクに対して評価される。
論文参考訳（メタデータ） (2022-07-05T08:47:51Z)
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。 LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-03-29T14:20:55Z)
Czert -- Czech BERT-like Model for Language Representation [0.0]
本稿では, BERT と ALBERT アーキテクチャに基づく最初のチェコ語単言語表現モデルの学習過程について述べる。私たちは、チェコのデータを含む多言語モデルよりも50倍多い340K以上の文でモデルを事前にトレーニングします。
論文参考訳（メタデータ） (2021-03-24T07:27:28Z)
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文参考訳（メタデータ） (2020-08-09T08:16:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。