論文の概要: Performance Comparison of Pre-trained Models for Speech-to-Text in
Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M
- arxiv url: http://arxiv.org/abs/2307.04765v1
- Date: Thu, 6 Jul 2023 21:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:05:13.149265
- Title: Performance Comparison of Pre-trained Models for Speech-to-Text in
Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M
- Title(参考訳): トルコ語音声テキスト学習モデルの性能比較:Whisper-SmallとWav2Vec2-XLS-R-300M
- Authors: Oyku Berfin Mercan, Sercan Cepni, Davut Emre Tasar, Sukru Ozan
- Abstract要約: トルコ語に対して, テキスト合成のための事前学習された2つの多言語モデルについて検討した。
Mozilla Common Voiceバージョン11.0はトルコ語で準備されている。
2つのモデルの音声とテキストのパフォーマンスを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this study, the performances of the Whisper-Small and Wav2Vec2-XLS-R-300M
models which are two pre-trained multilingual models for speech to text were
examined for the Turkish language. Mozilla Common Voice version 11.0 which is
prepared in Turkish language and is an open-source data set, was used in the
study. The multilingual models, Whisper- Small and Wav2Vec2-XLS-R-300M were
fine-tuned with this data set which contains a small amount of data. The speech
to text performance of the two models was compared. WER values are calculated
as 0.28 and 0.16 for the Wav2Vec2-XLS- R-300M and the Whisper-Small models
respectively. In addition, the performances of the models were examined with
the test data prepared with call center records that were not included in the
training and validation dataset.
- Abstract(参考訳): 本研究では,事前学習された2つの音声からテキストへの多言語モデルであるwhisper-smallとwav2vec2-xls-r-300mモデルの性能について検討した。
Mozilla Common Voiceバージョン11.0はトルコ語で準備されており、オープンソースのデータセットである。
多言語モデルであるWhisper-SmallとWav2Vec2-XLS-R-300Mは、少量のデータを含むこのデータセットで微調整された。
2つのモデルの音声とテキストのパフォーマンスを比較した。
WER値は、それぞれWav2Vec2-XLS-R-300MとWhisper-Smallモデルの0.28と0.16と計算される。
さらに、トレーニングおよび検証データセットに含まれていないコールセンターレコードを作成したテストデータを用いて、モデルの性能について検討した。
関連論文リスト
- Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Speech Technology for Everyone: Automatic Speech Recognition for
Non-Native English with Transfer Learning [0.0]
非ネイティブな英語音声コーパスであるL2-ARCTIC上で、事前訓練したwav2vec 2.0モデルの微調整を評価する。
本実験は,非母国英語話者を対象としたASRモデルの開発を実証するものである。
論文 参考訳(メタデータ) (2021-10-01T23:11:00Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。