論文の概要: Align-Refine: Non-Autoregressive Speech Recognition via Iterative
Realignment
- arxiv url: http://arxiv.org/abs/2010.14233v1
- Date: Sat, 24 Oct 2020 09:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:26:20.296187
- Title: Align-Refine: Non-Autoregressive Speech Recognition via Iterative
Realignment
- Title(参考訳): Align-Refine:反復認識による非自己回帰音声認識
- Authors: Ethan A. Chi, Julian Salazar, and Katrin Kirchhoff
- Abstract要約: 非自己回帰モデルの出力を編集することで、補充モデルと反復精製モデルがこのギャップの一部を構成する。
本稿では、出力シーケンス空間ではなく、遅延アライメント上で補正が行われる反復再配置を提案する。
- 参考スコア(独自算出の注目度): 18.487842656780728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive models greatly improve decoding speed over typical
sequence-to-sequence models, but suffer from degraded performance. Infilling
and iterative refinement models make up some of this gap by editing the outputs
of a non-autoregressive model, but are constrained in the edits that they can
make. We propose iterative realignment, where refinements occur over latent
alignments rather than output sequence space. We demonstrate this in speech
recognition with Align-Refine, an end-to-end Transformer-based model which
refines connectionist temporal classification (CTC) alignments to allow
length-changing insertions and deletions. Align-Refine outperforms Imputer and
Mask-CTC, matching an autoregressive baseline on WSJ at 1/14th the real-time
factor and attaining a LibriSpeech test-other WER of 9.0% without an LM. Our
model is strong even in one iteration with a shallower decoder.
- Abstract(参考訳): 非自己回帰モデルでは、典型的なシーケンス-シーケンスモデルよりもデコード速度が大幅に向上するが、性能が低下する。
非自己回帰モデルの出力を編集することで、埋め込みと反復的な洗練モデルは、このギャップの一部を埋めるが、それらが作成できる編集には制約がある。
本稿では、出力シーケンス空間ではなく、遅延アライメント上で補正が行われる反復再配置を提案する。
本稿では,接続性時間的分類(CTC)アライメントを改良し,長さの変化する挿入や削除を可能にする,エンドツーエンドのトランスフォーマーベースモデルであるAlign-Refineを用いた音声認識でこれを実証する。
Align-Refine は Imputer と Mask-CTC を上回り、WSJ 上の自己回帰ベースラインをリアルタイム係数 1/14 でマッチングし、LM なしで LibriSpeech の他の WER が 9.0 % に達する。
私たちのモデルは、より浅いデコーダで1イテレーションでも強いです。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。
本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-01T01:34:28Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z) - Imputer: Sequence Modelling via Imputation and Dynamic Programming [101.5705527605346]
Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
本稿では,ログ限界確率の低い動的プログラミング学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T18:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。