論文の概要: Exploring the limits of decoder-only models trained on public speech
recognition corpora
- arxiv url: http://arxiv.org/abs/2402.00235v1
- Date: Wed, 31 Jan 2024 23:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:15:57.459583
- Title: Exploring the limits of decoder-only models trained on public speech
recognition corpora
- Title(参考訳): 公開音声認識コーパスを用いたデコーダ限定モデルの限界探索
- Authors: Ankit Gupta, George Saon, Brian Kingsbury
- Abstract要約: Decoder-Only Transformer for ASR (DOTA) モデルは、ほぼ全ての英語のASRベンチマークおよび15のテストセット中7つのWhisper large-v3で、エンコーダ-デコーダのオープンソースレプリケーション(OWSM)を総じて上回っている。
- 参考スコア(独自算出の注目度): 36.446905777292066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of industrial-scale speech recognition (ASR) models such as
Whisper and USM, trained on 1M hours of weakly labelled and 12M hours of audio
only proprietary data respectively, has led to a stronger need for large scale
public ASR corpora and competitive open source pipelines. Unlike the said
models, large language models are typically based on Transformer decoders, and
it remains unclear if decoder-only models trained on public data alone can
deliver competitive performance. In this work, we investigate factors such as
choice of training datasets and modeling components necessary for obtaining the
best performance using public English ASR corpora alone. Our Decoder-Only
Transformer for ASR (DOTA) model comprehensively outperforms the
encoder-decoder open source replication of Whisper (OWSM) on nearly all English
ASR benchmarks and outperforms Whisper large-v3 on 7 out of 15 test sets. We
release our codebase and model checkpoints under permissive license.
- Abstract(参考訳): 産業規模の音声認識(asr)モデルであるwhisperやusmは、それぞれ1m時間弱のラベル付き音声と112m時間のプロプライエタリデータに基づいてトレーニングされており、大規模なasrコーパスと競合するオープンソースのパイプラインの必要性が高まっている。
上記のモデルとは異なり、大きな言語モデルは典型的にはトランスフォーマデコーダに基づいており、パブリックデータのみに基づいてトレーニングされたデコーダのみのモデルが競合性能を提供するかどうかは不明である。
本研究では,公開英語asrコーパスのみを用いて,学習データセットの選択や,最高のパフォーマンスを得るために必要なモデリングコンポーネントなどについて検討する。
我々のASR用デコーダオンリートランスフォーマー(DOTA)モデルは、15テストセット中7セットで、ほぼ全ての英語のASRベンチマークおよびWhisper large-v3で、エンコーダ-デコーダのオープンソースレプリケーション(OWSM)を総合的に上回ります。
私たちはコードベースとモデルチェックポイントを許容ライセンスでリリースします。
関連論文リスト
- Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - Compact Speech Translation Models via Discrete Speech Units Pretraining [82.2284421984621]
音声翻訳(ST)において、自己監督学習(SSL)が強い結果を得るのが一般的である。
本稿では、離散音声ユニット(DSU)でより小さなモデルを事前学習することでSSLモデルを活用する。
1) フィルタバンク・トゥ・DSUおよび2) DSU・トゥ・トランスレーションデータ上でエンコーダ・デコーダモデルを事前訓練し, 1) とデコーダを 2) から取り出して新しいモデルを初期化し,これを限定的な音声翻訳データに基づいて微調整する。
論文 参考訳(メタデータ) (2024-02-29T16:36:51Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech
Recognition, Translation, and Language Identification [49.09873466927087]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して,OWSM-CTCはASRとSTで最大25%の相対的改善を達成し,より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Digits micro-model for accurate and secure transactions [0.5999777817331317]
より小型の「マイクロ」音声認識モデルの可能性を強調した。
大きな音声認識モデルとは異なり、マイクロモデルは慎重に選択され、キュレートされたデータセットで訓練される。
我々の研究は、ドメイン固有のASRモデル、数値認識精度の向上、データのプライバシーに寄与する。
論文 参考訳(メタデータ) (2024-02-02T22:01:27Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [78.73547416883987]
クロスミクススピーカを提案する。
話者間の表現を集約することでSIMOモデルの限界に対処するネットワーク。
CSE-SOT モデルは,単語誤り率 (WER) をSOT モデルと比較して10%削減し,ハイオーバーラップ音声では16%削減する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Weakly Supervised Construction of ASR Systems with Massive Video Data [18.5050375783871]
本稿では,大容量ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
光文字認識(OCR)に基づく映像から高音質音声をテキストに整合して抽出する効果的な手法を提案する。
本フレームワークは,マンダリン音声認識のための6つの公開データセットに対して,最先端の結果を容易に生成することができる。
論文 参考訳(メタデータ) (2020-08-04T03:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。