論文の概要: Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances
- arxiv url: http://arxiv.org/abs/2002.05150v1
- Date: Wed, 12 Feb 2020 18:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:39:03.667889
- Title: Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances
- Title(参考訳): 領域外発話における注意音声認識モデル
- Authors: Phillip Keung, Wei Niu, Yichao Lu, Julian Salazar, Vikas Bhardwaj
- Abstract要約: 我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
- 参考スコア(独自算出の注目度): 16.639133822656458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discuss the problem of echographic transcription in autoregressive
sequence-to-sequence attentional architectures for automatic speech
recognition, where a model produces very long sequences of repetitive outputs
when presented with out-of-domain utterances. We decode audio from the British
National Corpus with an attentional encoder-decoder model trained solely on the
LibriSpeech corpus. We observe that there are many 5-second recordings that
produce more than 500 characters of decoding output (i.e. more than 100
characters per second). A frame-synchronous hybrid (DNN-HMM) model trained on
the same data does not produce these unusually long transcripts. These decoding
issues are reproducible in a speech transformer model from ESPnet, and to a
lesser extent in a self-attention CTC model, suggesting that these issues are
intrinsic to the use of the attention mechanism. We create a separate length
prediction model to predict the correct number of wordpieces in the output,
which allows us to identify and truncate problematic decoding results without
increasing word error rates on the LibriSpeech task.
- Abstract(参考訳): 本稿では,自動音声認識のための自己回帰シーケンスからシーケンスへの注意構造におけるエコー転写の問題点について論じる。
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力(つまり毎秒100文字以上)を生成する5秒記録が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
これらの復号問題はespnetの音声トランスフォーマーモデルで再現可能であり、自己照準ctcモデルではより少ない範囲で再現可能であり、これらの問題は注意機構の使用に固有のものであることを示唆している。
我々は、出力中のワードピースの正しい数を予測するために、別々の長さ予測モデルを作成し、LibriSpeechタスクのワードエラー率を増大させることなく、問題のあるデコード結果を特定し、切り離すことができる。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。