論文の概要: Exploring Capabilities of Monolingual Audio Transformers using Large
Datasets in Automatic Speech Recognition of Czech
- arxiv url: http://arxiv.org/abs/2206.07627v1
- Date: Wed, 15 Jun 2022 16:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 15:22:10.030557
- Title: Exploring Capabilities of Monolingual Audio Transformers using Large
Datasets in Automatic Speech Recognition of Czech
- Title(参考訳): チェコ語自動音声認識における大規模データセットを用いた単言語音声トランスフォーマの能力の検討
- Authors: Jan Lehe\v{c}ka, Jan \v{S}vec, Ale\v{s} Pra\v{z}\'ak, Josef V. Psutka
- Abstract要約: チェコ語単言語音声トランスフォーマーを8万時間以上のラベルなし音声を含む大規模データセットから事前学習する過程について述べる。
2つの公開データセットで評価された様々な微調整設定による実験の大規模なパレットを提示する。
- 参考スコア(独自算出の注目度): 0.9653976364051563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present our progress in pretraining Czech monolingual audio
transformers from a large dataset containing more than 80 thousand hours of
unlabeled speech, and subsequently fine-tuning the model on automatic speech
recognition tasks using a combination of in-domain data and almost 6 thousand
hours of out-of-domain transcribed speech. We are presenting a large palette of
experiments with various fine-tuning setups evaluated on two public datasets
(CommonVoice and VoxPopuli) and one extremely challenging dataset from the
MALACH project. Our results show that monolingual Wav2Vec 2.0 models are robust
ASR systems, which can take advantage of large labeled and unlabeled datasets
and successfully compete with state-of-the-art LVCSR systems. Moreover, Wav2Vec
models proved to be good zero-shot learners when no training data are available
for the target ASR task.
- Abstract(参考訳): 本稿では,8万時間以上のラベル付き音声を含む大データセットからチェコ語単言語音声トランスフォーマーを事前学習し,その後,ドメイン内データと約6万時間のドメイン外転写音声を組み合わせた自動音声認識タスクのモデルを微調整する方法について述べる。
我々は、2つの公開データセット(CommonVoiceとVoxPopuli)とMALACHプロジェクトからの非常に難しいデータセットで評価された様々な微調整設定による大規模な実験パレットを提示している。
以上の結果から,モノリンガルなWav2Vec 2.0モデルは,ラベル付きおよびラベル付けされていない大規模データセットを活用でき,最先端のLVCSRシステムと競合することに成功した。
さらに、Wav2Vecモデルは、ターゲットのASRタスクにトレーニングデータがない場合に、良いゼロショット学習者であることが判明した。
関連論文リスト
- Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。