論文の概要: Single headed attention based sequence-to-sequence model for
state-of-the-art results on Switchboard
- arxiv url: http://arxiv.org/abs/2001.07263v3
- Date: Tue, 20 Oct 2020 03:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:42:27.701015
- Title: Single headed attention based sequence-to-sequence model for
state-of-the-art results on Switchboard
- Title(参考訳): 単方向注意に基づくスイッチボードにおける最先端結果のシーケンス・ツー・シーケンスモデル
- Authors: Zolt\'an T\"uske, George Saon, Kartik Audhkhasi, Brian Kingsbury
- Abstract要約: ここでは,Switchboard-300データベース上で,最先端の音声認識性能が実現可能であることを示す。
クロス発話言語モデルを用いて、我々のシングルパス話者独立システムは、Hub5'00のSwitchboardおよびCallHomeサブセットで6.4%、12.5%のワードエラー率(WER)に達する。
- 参考スコア(独自算出の注目度): 36.06535394840605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is generally believed that direct sequence-to-sequence (seq2seq) speech
recognition models are competitive with hybrid models only when a large amount
of data, at least a thousand hours, is available for training. In this paper,
we show that state-of-the-art recognition performance can be achieved on the
Switchboard-300 database using a single headed attention, LSTM based model.
Using a cross-utterance language model, our single-pass speaker independent
system reaches 6.4% and 12.5% word error rate (WER) on the Switchboard and
CallHome subsets of Hub5'00, without a pronunciation lexicon. While careful
regularization and data augmentation are crucial in achieving this level of
performance, experiments on Switchboard-2000 show that nothing is more useful
than more data. Overall, the combination of various regularizations and a
simple but fairly large model results in a new state of the art, 4.7% and 7.8%
WER on the Switchboard and CallHome sets, using SWB-2000 without any external
data resources.
- Abstract(参考訳): seq2seq(direct sequence-to-sequence)音声認識モデルは、大量のデータ(少なくとも1000時間)がトレーニングに利用できる場合にのみハイブリッドモデルと競合すると考えられている。
本論文では,一方向のLSTMモデルを用いて,Switchboard-300データベース上で最先端の認識性能を実現することができることを示す。
クロス発話言語モデルを用いて、我々のシングルパス話者独立システムは、発音辞書なしで、SwitchboardとHub5'00のCallHomeサブセットで6.4%と12.5%のワードエラー率(WER)に達する。
このレベルのパフォーマンスを達成するには慎重な正規化とデータ拡張が不可欠であるが、switchboard-2000の実験では、より多くのデータよりも有用でないことが示されている。
概して、様々な正規化と比較的大きなモデルの組み合わせは、外部データリソースを使わずにSWB-2000を使用して、SwitchboardとCallHomeセットの4.7%と7.8%のWERという新しい状態をもたらす。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained
Foundation Models [17.87796508561949]
本稿では,話者のターンを同時に検出し,96言語でASRを実行する多言語話者変化検出モデル(USM-SCD)を提案する。
その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T20:46:49Z) - Evaluation of Speech Representations for MOS prediction [0.7329200485567826]
本稿では,音声品質予測のための特徴抽出モデルの評価を行う。
また,教師付き学習モデルと自己教師付き学習モデルの埋め込みを話者検証モデルの埋め込みと比較するモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-16T17:21:42Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Automatic Learning of Subword Dependent Model Scales [50.105894487730545]
本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。
提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
論文 参考訳(メタデータ) (2021-10-18T13:48:28Z) - On the limit of English conversational speech recognition [28.395662280898787]
対話型音声認識において,シングルヘッドアテンションエンコーダ・デコーダモデルが最先端の結果に到達できることを実証する。
Switchboard-300上でのLSTMシステムの認識誤差を4%削減する。
We report 5.9% and 11.5% WER on the SWB and CHM parts of Hub5'00 with very simple LSTM models。
論文 参考訳(メタデータ) (2021-05-03T16:32:38Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。