論文の概要: A Comparison of Label-Synchronous and Frame-Synchronous End-to-End
Models for Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.10113v2
- Date: Mon, 25 May 2020 08:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:57:15.613209
- Title: A Comparison of Label-Synchronous and Frame-Synchronous End-to-End
Models for Speech Recognition
- Title(参考訳): 音声認識におけるラベル同期モデルとフレーム同期モデルの比較
- Authors: Linhao Dong, Cheng Yi, Jianzong Wang, Shiyu Zhou, Shuang Xu, Xueli
Jia, Bo Xu
- Abstract要約: 代表ラベル同期モデル(変換器)とソフトフレーム同期モデル(連続統合火炎モデル)を比較した。
3つの公開データセットと12000時間のトレーニングデータを持つ大規模データセットの結果から,2種類のモデルが同期モードと整合したそれぞれにメリットがあることが分かる。
- 参考スコア(独自算出の注目度): 35.14176176739817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models are gaining wider attention in the field of automatic
speech recognition (ASR). One of their advantages is the simplicity of building
that directly recognizes the speech frame sequence into the text label sequence
by neural networks. According to the driving end in the recognition process,
end-to-end ASR models could be categorized into two types: label-synchronous
and frame-synchronous, each of which has unique model behaviour and
characteristic. In this work, we make a detailed comparison on a representative
label-synchronous model (transformer) and a soft frame-synchronous model
(continuous integrate-and-fire (CIF) based model). The results on three public
dataset and a large-scale dataset with 12000 hours of training data show that
the two types of models have respective advantages that are consistent with
their synchronous mode.
- Abstract(参考訳): エンドツーエンドモデルは自動音声認識(ASR)の分野で広く注目を集めている。
それらの利点の1つは、ニューラルネットワークによって音声フレームシーケンスをテキストラベルシーケンスに直接認識する簡易性である。
認識プロセスの駆動端によれば、エンドツーエンドのASRモデルはラベル同期とフレーム同期の2つのタイプに分類される。
本研究では,代表的なラベル同期モデル (transformer) とソフトフレーム同期モデル (continuous integrated-and-fire (cif) based model) について詳細な比較を行った。
3つの公開データセットと12000時間のトレーニングデータを持つ大規模データセットの結果から,2種類のモデルが同期モードと整合したそれぞれにメリットがあることが分かる。
関連論文リスト
- On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data [8.660721666999718]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。
競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-02T13:17:19Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept [56.46135010588918]
RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。
空白確率はセグメント長確率に変換され,その逆も示された。
論文 参考訳(メタデータ) (2021-04-13T11:20:48Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。