論文の概要: HuBERT-TR: Reviving Turkish Automatic Speech Recognition with
Self-supervised Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2210.07323v1
- Date: Thu, 13 Oct 2022 19:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:50:47.499550
- Title: HuBERT-TR: Reviving Turkish Automatic Speech Recognition with
Self-supervised Speech Representation Learning
- Title(参考訳): HuBERT-TR:自己教師型音声表現学習によるトルコ語自動音声認識の復活
- Authors: Ali Safaya, Engin Erzin
- Abstract要約: 本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。
HuBERT-TRは、いくつかのトルコのASRデータセットで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 10.378738776547815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the Turkish language is listed among low-resource languages, literature
on Turkish automatic speech recognition (ASR) is relatively old. In this paper,
we present HuBERT-TR, a speech representation model for Turkish based on
HuBERT. HuBERT-TR achieves state-of-the-art results on several Turkish ASR
datasets. We investigate pre-training HuBERT for Turkish with large-scale data
curated from online resources. We pre-train HuBERT-TR using over 6,500 hours of
speech data curated from YouTube that includes extensive variability in terms
of quality and genre. We show that pre-trained models within a multi-lingual
setup are inferior to language-specific models, where our Turkish model
HuBERT-TR base performs better than its x10 times larger multi-lingual
counterpart XLS-R-1B. Moreover, we study the effect of scaling on ASR
performance by scaling our models up to 1B parameters. Our best model yields a
state-of-the-art word error rate of 4.97% on the Turkish Broadcast News
dataset. Models are available at huggingface.co/asafaya .
- Abstract(参考訳): トルコ語は低リソース言語に分類されるが、トルコ語自動音声認識(ASR)に関する文献は比較的古い。
本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。
HuBERT-TRはいくつかのトルコのASRデータセットで最先端の結果を得る。
オンライン資源から収集した大規模データを用いてトルコ語のための事前学習を行う。
我々は、YouTubeから収集された6,500時間以上の音声データを用いて、HumberT-TRを事前訓練する。
トルコ語モデルであるhubert-trは,x10倍の大きさのマルチリンガルモデルであるxls-r-1bよりも優れた性能を示す。
さらに,1Bパラメータまでスケールすることで,ASR性能に及ぼすスケーリングの影響について検討した。
我々の最良のモデルは、トルコ放送ニュースデータセットで最先端の単語エラー率4.97%を得る。
モデルは huggingface.co/asafaya で利用可能である。
関連論文リスト
- OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech
Recognition, Translation, and Language Identification [49.09873466927087]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して,OWSM-CTCはASRとSTで最大25%の相対的改善を達成し,より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Fine-tuning Transformer-based Encoder for Turkish Language Understanding
Tasks [0.0]
トルコ語のためのTransformerベースのモデルとベースラインベンチマークを提供する。
我々は、トルコのBERTモデル、BERTurkを多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2024-01-30T19:27:04Z) - TurkishBERTweet: Fast and Reliable Large Language Model for Social Media
Analysis [4.195270491854775]
約9億のツイートを使って構築されたトルコのソーシャルメディアのための、最初の大規模な事前訓練された言語モデルであるTurrkBERTweetを紹介します。
このモデルは、BERTモデルと同じアーキテクチャで、入力長が小さく、BERTurkより軽量である。
TurkBERTweetは、汎用性において他の選択肢よりも優れており、推論時間が低いことは、大規模なデータセットを処理する上で大きな利点をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-11-29T20:22:44Z) - Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models [0.0]
本研究は,小型・小型・小型・中規模のトルコのBERTモデルを紹介し,評価する。
我々は、複数の情報源から75GB以上のテキストを含む多様なデータセットでこれらのモデルをトレーニングし、マスク予測、感情分析、ニュース分類、ゼロショット分類など、様々なタスクでテストした。
論文 参考訳(メタデータ) (2023-07-26T12:02:30Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - ASR-Generated Text for Language Model Pre-training Applied to Speech
Tasks [20.83731188652985]
我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。
新たなモデル(FlauBERT-Oral)がコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つのダウンストリームタスクに対して評価される。
論文 参考訳(メタデータ) (2022-07-05T08:47:51Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - Czert -- Czech BERT-like Model for Language Representation [0.0]
本稿では, BERT と ALBERT アーキテクチャに基づく最初のチェコ語単言語表現モデルの学習過程について述べる。
私たちは、チェコのデータを含む多言語モデルよりも50倍多い340K以上の文でモデルを事前にトレーニングします。
論文 参考訳(メタデータ) (2021-03-24T07:27:28Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。