論文の概要: A systematic comparison of grapheme-based vs. phoneme-based label units
for encoder-decoder-attention models
- arxiv url: http://arxiv.org/abs/2005.09336v3
- Date: Thu, 15 Apr 2021 16:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 12:55:19.550302
- Title: A systematic comparison of grapheme-based vs. phoneme-based label units
for encoder-decoder-attention models
- Title(参考訳): エンコーダデコーダアテンションモデルにおけるグラファイムベースと音素ベースラベルユニットの体系的比較
- Authors: Mohammad Zeineldeen, Albert Zeyer, Wei Zhou, Thomas Ng, Ralf
Schl\"uter, Hermann Ney
- Abstract要約: 我々は,エンコーダ・デコーダ・アテンションASRモデルに対して,グラファイムと音素に基づく出力ラベルを体系的に比較する。
Switchboard 300h と LibriSpeech ベンチマークで実施された実験は、音素ベースのモデリングは、グラファイムベースのエンコーダ-デコーダ-アテンションモデリングと競合していることを示している。
- 参考スコア(独自算出の注目度): 42.761409598613845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the rationale of end-to-end modeling, CTC, RNN-T or
encoder-decoder-attention models for automatic speech recognition (ASR) use
graphemes or grapheme-based subword units based on e.g. byte-pair encoding
(BPE). The mapping from pronunciation to spelling is learned completely from
data. In contrast to this, classical approaches to ASR employ secondary
knowledge sources in the form of phoneme lists to define phonetic output labels
and pronunciation lexica. In this work, we do a systematic comparison between
grapheme- and phoneme-based output labels for an encoder-decoder-attention ASR
model. We investigate the use of single phonemes as well as BPE-based phoneme
groups as output labels of our model. To preserve a simplified and efficient
decoder design, we also extend the phoneme set by auxiliary units to be able to
distinguish homophones. Experiments performed on the Switchboard 300h and
LibriSpeech benchmarks show that phoneme-based modeling is competitive to
grapheme-based encoder-decoder-attention modeling.
- Abstract(参考訳): エンドツーエンドモデリングの理論的根拠に従い、自動音声認識(asr)のためのctc、rnn-tまたはエンコーダ-デコーダ-アテンションモデルは、例えばbyte-pair encoding(bpe)に基づくgraphemesまたはgraphemeベースのサブワードユニットを使用する。
発音から綴りへのマッピングは、データから完全に学習される。
これとは対照的に、古典的なASRのアプローチでは、音素出力ラベルと発音レキシカを定義するために、音素リストという形で二次的な知識源を用いる。
本研究では,エンコーダ・デコーダ・アテンションasrモデルに対して,graphemeとphonemeベースの出力ラベルを系統的に比較する。
モデルの出力ラベルとして単一音素とBPEに基づく音素群を併用することを検討した。
簡易かつ効率的なデコーダ設計を維持するため,ホモホンを識別するための補助ユニットによる音素セットの拡張も行う。
Switchboard 300h と LibriSpeech ベンチマークで実施された実験は、音素ベースのモデリングは、グラファイムベースのエンコーダ-デコーダ-アテンションモデリングと競合していることを示している。
関連論文リスト
- Phoneme-aware Encoding for Prefix-tree-based Contextual ASR [45.161909551392085]
Tree-Constrained Pointer Generator (TCPGen)はこの目的を約束している。
音素認識符号化で拡張することで、異常な発音の単語をよりよく認識することを提案する。
論文 参考訳(メタデータ) (2023-12-15T07:37:09Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding [5.697227044927832]
音声対応テキストエンコーダを用いて任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。
テキストエンコーダは,G2Pモデルを用いてテキストを音素に変換し,代表音素ベクトルを用いた埋め込みに変換する。
実験結果から, この手法は, Libriphrase のハードデータセット上での最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2023-08-12T05:41:15Z) - IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining [8.129944388402839]
本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
論文 参考訳(メタデータ) (2023-03-06T13:59:37Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - A Dual-Decoder Conformer for Multilingual Speech Recognition [4.594159253008448]
本研究は,インド語に対する低リソース多言語音声認識のためのデュアルデコーダ変換モデルを提案する。
音素認識タスクにはPHN-DEC,言語情報にはGRP-DECを用いる。
実験の結果,ベースラインアプローチよりもWERの大幅な削減が可能であることがわかった。
論文 参考訳(メタデータ) (2021-08-22T09:22:28Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - LSTM Acoustic Models Learn to Align and Pronounce with Graphemes [22.453756228457017]
そこで本研究では,純粋にデータ駆動型で学習可能なグラファイムに基づく音声認識手法を提案する。
大規模なデータセットで学習すると,音素出力モデルとWERが競合することを示す。
論文 参考訳(メタデータ) (2020-08-13T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。