論文の概要: Hybrid Autoregressive Transducer (hat)
- arxiv url: http://arxiv.org/abs/2003.07705v1
- Date: Thu, 12 Mar 2020 20:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:04:30.359695
- Title: Hybrid Autoregressive Transducer (hat)
- Title(参考訳): ハイブリッド自己回帰トランスデューサ(hat)
- Authors: Ehsan Variani, David Rybach, Cyril Allauzen, Michael Riley
- Abstract要約: 本稿では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの提案と評価を行う。
従来の音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルである。
提案手法を大規模音声検索タスクで評価する。
- 参考スコア(独自算出の注目度): 11.70833387055716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes and evaluates the hybrid autoregressive transducer (HAT)
model, a time-synchronous encoderdecoder model that preserves the modularity of
conventional automatic speech recognition systems. The HAT model provides a way
to measure the quality of the internal language model that can be used to
decide whether inference with an external language model is beneficial or not.
This article also presents a finite context version of the HAT model that
addresses the exposure bias problem and significantly simplifies the overall
training and inference. We evaluate our proposed model on a large-scale voice
search task. Our experiments show significant improvements in WER compared to
the state-of-the-art approaches.
- Abstract(参考訳): 本稿では,従来の自動音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルであるハイブリッド自己回帰トランスデューサ(HAT)モデルを提案し,評価する。
HATモデルは、外部言語モデルによる推論が有用かどうかを決定するのに使用できる内部言語モデルの品質を測定する方法を提供する。
本稿では、露出バイアス問題に対処し、全体的なトレーニングと推論を大幅に単純化する、HATモデルの有限文脈バージョンも提示する。
提案モデルを大規模音声検索タスクで評価する。
我々の実験は、最先端のアプローチと比較して、WERの大幅な改善を示している。
関連論文リスト
- QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation [13.16188747098854]
本稿では,新しい注目型エンコーダデコーダ(HAED)音声認識モデルを提案する。
本モデルでは,アコースティックモデルと言語モデルとを分離し,従来のテキストベース言語モデル適応技術の利用を可能にする。
提案したHAEDモデルは,言語モデル適応にドメイン外テキストデータを使用する場合,相対的単語誤り率(WER)が23%向上することが実証された。
論文 参考訳(メタデータ) (2023-09-14T01:07:36Z) - Incorporating Casual Analysis into Diversified and Logical Response
Generation [14.4586344491264]
条件変分オートエンコーダ(CVAE)モデルは、従来のSeq2Seqモデルよりも多様な応答を生成することができる。
本稿では,メディエータが関連する情報を保持することを予測し,メディエータを自動回帰的に生成プロセスに組み込むことを提案する。
論文 参考訳(メタデータ) (2022-09-20T05:51:11Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。