論文の概要: Homophone-based Label Smoothing in End-to-End Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2004.03437v2
- Date: Thu, 14 May 2020 07:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:44:38.582116
- Title: Homophone-based Label Smoothing in End-to-End Automatic Speech
Recognition
- Title(参考訳): エンド・ツー・エンド自動音声認識におけるホモホンに基づくラベル平滑化
- Authors: Yi Zheng, Xianjie Yang, Xuyong Dang
- Abstract要約: 提案手法は、より複雑な方法で、ホモフォンの発音知識を使用する。
ハイブリッドCTCシークエンス・ツー・シーケンスモデルによる実験により、新しい手法は文字誤り率(CER)を0.4%削減できることが示された。
- 参考スコア(独自算出の注目度): 8.066444614339614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A new label smoothing method that makes use of prior knowledge of a language
at human level, homophone, is proposed in this paper for automatic speech
recognition (ASR). Compared with its forerunners, the proposed method uses
pronunciation knowledge of homophones in a more complex way. End-to-end ASR
models that learn acoustic model and language model jointly and modelling units
of characters are necessary conditions for this method. Experiments with hybrid
CTC sequence-to-sequence model show that the new method can reduce character
error rate (CER) by 0.4% absolutely.
- Abstract(参考訳): 本稿では,人間レベルでの言語知識を利用した新しいラベル平滑化手法であるhomophoneを提案し,自動音声認識 (asr) について述べる。
前者と比較して,提案手法はより複雑な方法でホモフォンの発音知識を利用する。
音響モデルと言語モデルを共同で学習するエンドツーエンドのASRモデルと文字単位をモデル化することが本手法に必要な条件である。
ハイブリッドctcシーケンシャル・ツー・シーケンスモデルを用いた実験により、新しい手法は文字誤り率 (cer) を絶対0.4%削減できることを示した。
関連論文リスト
- Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Improving Rare Words Recognition through Homophone Extension and Unified
Writing for Low-resource Cantonese Speech Recognition [36.10245119706219]
ホモフォン文字は、マンダリンやカントン語のような音節ベースの言語で一般的である。
本稿では,ビーム探索復号化プロセスにホモフォン語彙の人間の知識を統合するための新しいホモホン拡張手法を提案する。
また、カントン文字の変種をマージする統一的な自動記述法を提案する。
論文 参考訳(メタデータ) (2023-02-02T02:46:32Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。