論文の概要: Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition
- arxiv url: http://arxiv.org/abs/2205.11998v1
- Date: Tue, 24 May 2022 11:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:09:06.482728
- Title: Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition
- Title(参考訳): エンドツーエンドマンダリン音声認識のためのマルチレベルモデリングユニット
- Authors: Yuting Yang, Binbin Du, Yuke Li
- Abstract要約: マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。
マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを含む新しい手法を提案する。
- 参考スコア(独自算出の注目度): 9.930655347717932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of modeling units affects the performance of the acoustic modeling
and plays an important role in automatic speech recognition (ASR). In mandarin
scenarios, the Chinese characters represent meaning but are not directly
related to the pronunciation. Thus only considering the writing of Chinese
characters as modeling units is insufficient to capture speech features. In
this paper, we present a novel method involves with multi-level modeling units,
which integrates multi-level information for mandarin speech recognition.
Specifically, the encoder block considers syllables as modeling units, and the
decoder block deals with character modeling units. During inference, the input
feature sequences are converted into syllable sequences by the encoder block
and then converted into Chinese characters by the decoder block. This process
is conducted by a unified end-to-end model without introducing additional
conversion models. By introducing InterCE auxiliary task, our method achieves
competitive results with CER of 4.1%/4.6% and 4.6%/5.2% on the widely used
AISHELL-1 benchmark without a language model, using the Conformer and the
Transformer backbones respectively.
- Abstract(参考訳): モデリングユニットの選択は音響モデルの性能に影響を与え、自動音声認識(ASR)において重要な役割を果たす。
マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。
したがって、漢字の表記をモデリング単位として考えるだけでは、音声の特徴を捉えるには不十分である。
本稿では,マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを用いた新しい手法を提案する。
具体的には、エンコーダブロックはシラブルをモデリングユニットとし、デコーダブロックはキャラクタモデリングユニットを扱う。
推論中、入力特徴列はエンコーダブロックによって音節列に変換され、その後デコーダブロックによって漢字に変換される。
このプロセスは、追加の変換モデルを導入することなく、統一されたエンドツーエンドモデルによって実行される。
InterCE補助タスクを導入することで、CERの4.1%/4.6%と4.6%/5.2%を言語モデルのないAISHELL-1ベンチマークでそれぞれコンフォーマーとトランスフォーマーのバックボーンを用いて比較した。
関連論文リスト
- Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Pronunciation-aware unique character encoding for RNN Transducer-based
Mandarin speech recognition [38.60303603000269]
本稿では,E2E RNN-T ベースの Mandarin ASR システム構築に新しい発音認識文字符号化法を提案する。
提案する符号化法は発音ベース音節と文字索引(CI)の組み合わせである。
論文 参考訳(メタデータ) (2022-07-29T09:49:10Z) - Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character [15.999657143705045]
ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
論文 参考訳(メタデータ) (2022-01-26T07:59:03Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。