論文の概要: Acoustic Data-Driven Subword Modeling for End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.09106v1
- Date: Mon, 19 Apr 2021 07:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:04:01.636019
- Title: Acoustic Data-Driven Subword Modeling for End-to-End Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための音響データ駆動サブワードモデリング
- Authors: Wei Zhou, Mohammad Zeineldeen, Zuoyun Zheng, Ralf Schl\"uter, Hermann
Ney
- Abstract要約: 単語単位は通常、エンドツーエンドの自動音声認識(ASR)に使用される。
本稿では,複数のテキストベースおよび音響ベースサブワード手法の利点を1つのパイプラインに適応させる音響データ駆動サブワードモデリング手法を提案する。
- 参考スコア(独自算出の注目度): 46.675712485821805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subword units are commonly used for end-to-end automatic speech recognition
(ASR), while a fully acoustic-oriented subword modeling approach is somewhat
missing. We propose an acoustic data-driven subword modeling (ADSM) approach
that adapts the advantages of several text-based and acoustic-based subword
methods into one pipeline. With a fully acoustic-oriented label design and
learning process, ADSM produces acoustic-structured subword units and
acoustic-matched target sequence for further ASR training. The obtained ADSM
labels are evaluated with different end-to-end ASR approaches including CTC,
RNN-transducer and attention models. Experiments on the LibriSpeech corpus show
that ADSM clearly outperforms both byte pair encoding (BPE) and
pronunciation-assisted subword modeling (PASM) in all cases. Detailed analysis
shows that ADSM achieves acoustically more logical word segmentation and more
balanced sequence length, and thus, is suitable for both time-synchronous and
label-synchronous models. We also briefly describe how to apply acoustic-based
subword regularization and unseen text segmentation using ADSM.
- Abstract(参考訳): サブワード単位は、エンドツーエンドの自動音声認識(asr)に一般的に使用されるが、完全に音響指向のサブワードモデリングアプローチは欠落している。
本稿では,複数のテキストベースおよび音響ベースサブワード手法の利点を1つのパイプラインに適応させるアコースティックデータ駆動サブワードモデリング(ADSM)手法を提案する。
完全な音響指向ラベル設計と学習プロセスにより、ADSMは音響構造化サブワードユニットと音響マッチングされたターゲットシーケンスを生成して、さらなるASRトレーニングを行う。
得られたADSMラベルは、CTC、RNN-transducer、アテンションモデルを含む、異なるエンドツーエンドのASRアプローチで評価される。
LibriSpeech corpus の実験では、ADSM はバイトペア符号化 (BPE) と発音支援サブワードモデリング (PASM) の両方で明らかに優れていた。
詳細な分析の結果,ADSMは時間同期モデルとラベル同期モデルの両方に適しており,より論理的な単語分割とバランスの取れたシーケンス長を実現している。
また,ADSMを用いた音声によるサブワード正規化と未知のテキストセグメンテーションの応用法についても簡潔に述べる。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Audio-to-Intent Using Acoustic-Textual Subword Representations from
End-to-End ASR [8.832255053182283]
本稿では,サブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。
提案手法は, 意図しないユーザ音声の93.3%を, 99%の正の確率で起動することで, 精度が高いことを示す。
論文 参考訳(メタデータ) (2022-10-21T17:45:00Z) - UTTS: Unsupervised TTS with Conditional Disentangled Sequential
Variational Auto-encoder [30.376259456529368]
TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない、教師なし音声合成(UTTS)フレームワークを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。