論文の概要: Exploring the limits of decoder-only models trained on public speech
recognition corpora
- arxiv url: http://arxiv.org/abs/2402.00235v1
- Date: Wed, 31 Jan 2024 23:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:15:57.459583
- Title: Exploring the limits of decoder-only models trained on public speech
recognition corpora
- Title(参考訳): 公開音声認識コーパスを用いたデコーダ限定モデルの限界探索
- Authors: Ankit Gupta, George Saon, Brian Kingsbury
- Abstract要約: Decoder-Only Transformer for ASR (DOTA) モデルは、ほぼ全ての英語のASRベンチマークおよび15のテストセット中7つのWhisper large-v3で、エンコーダ-デコーダのオープンソースレプリケーション(OWSM)を総じて上回っている。
- 参考スコア(独自算出の注目度): 36.446905777292066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of industrial-scale speech recognition (ASR) models such as
Whisper and USM, trained on 1M hours of weakly labelled and 12M hours of audio
only proprietary data respectively, has led to a stronger need for large scale
public ASR corpora and competitive open source pipelines. Unlike the said
models, large language models are typically based on Transformer decoders, and
it remains unclear if decoder-only models trained on public data alone can
deliver competitive performance. In this work, we investigate factors such as
choice of training datasets and modeling components necessary for obtaining the
best performance using public English ASR corpora alone. Our Decoder-Only
Transformer for ASR (DOTA) model comprehensively outperforms the
encoder-decoder open source replication of Whisper (OWSM) on nearly all English
ASR benchmarks and outperforms Whisper large-v3 on 7 out of 15 test sets. We
release our codebase and model checkpoints under permissive license.
- Abstract(参考訳): 産業規模の音声認識(asr)モデルであるwhisperやusmは、それぞれ1m時間弱のラベル付き音声と112m時間のプロプライエタリデータに基づいてトレーニングされており、大規模なasrコーパスと競合するオープンソースのパイプラインの必要性が高まっている。
上記のモデルとは異なり、大きな言語モデルは典型的にはトランスフォーマデコーダに基づいており、パブリックデータのみに基づいてトレーニングされたデコーダのみのモデルが競合性能を提供するかどうかは不明である。
本研究では,公開英語asrコーパスのみを用いて,学習データセットの選択や,最高のパフォーマンスを得るために必要なモデリングコンポーネントなどについて検討する。
我々のASR用デコーダオンリートランスフォーマー(DOTA)モデルは、15テストセット中7セットで、ほぼ全ての英語のASRベンチマークおよびWhisper large-v3で、エンコーダ-デコーダのオープンソースレプリケーション(OWSM)を総合的に上回ります。
私たちはコードベースとモデルチェックポイントを許容ライセンスでリリースします。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Digits micro-model for accurate and secure transactions [0.5999777817331317]
より小型の「マイクロ」音声認識モデルの可能性を強調した。
大きな音声認識モデルとは異なり、マイクロモデルは慎重に選択され、キュレートされたデータセットで訓練される。
我々の研究は、ドメイン固有のASRモデル、数値認識精度の向上、データのプライバシーに寄与する。
論文 参考訳(メタデータ) (2024-02-02T22:01:27Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。