論文の概要: Transformer with Bidirectional Decoder for Speech Recognition
- arxiv url: http://arxiv.org/abs/2008.04481v1
- Date: Tue, 11 Aug 2020 02:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:54:41.197828
- Title: Transformer with Bidirectional Decoder for Speech Recognition
- Title(参考訳): 音声認識用双方向デコーダ付きトランス
- Authors: Xi Chen and Songyang Zhang and Dandan Song and Peng Ouyang and Shouyi
Yin
- Abstract要約: 異なる方向の文脈を同時に利用する双方向音声変換器を提案する。
具体的には、提案した変換器の出力には、左から右への目標と右から左への目標が含まれる。
推論段階では、左右の候補を生成でき、左右の候補を生成できる双方向ビームサーチ方式を用いる。
- 参考スコア(独自算出の注目度): 32.56014992915183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based models have made tremendous progress on end-to-end automatic
speech recognition(ASR) recently. However, the conventional transformer-based
approaches usually generate the sequence results token by token from left to
right, leaving the right-to-left contexts unexploited. In this work, we
introduce a bidirectional speech transformer to utilize the different
directional contexts simultaneously. Specifically, the outputs of our proposed
transformer include a left-to-right target, and a right-to-left target. In
inference stage, we use the introduced bidirectional beam search method, which
can not only generate left-to-right candidates but also generate right-to-left
candidates, and determine the best hypothesis by the score.
To demonstrate our proposed speech transformer with a bidirectional
decoder(STBD), we conduct extensive experiments on the AISHELL-1 dataset. The
results of experiments show that STBD achieves a 3.6\% relative CER
reduction(CERR) over the unidirectional speech transformer baseline. Besides,
the strongest model in this paper called STBD-Big can achieve 6.64\% CER on the
test set, without language model rescoring and any extra data augmentation
strategies.
- Abstract(参考訳): 注意に基づくモデルは近年,エンドツーエンドの自動音声認識(ASR)に大きく進歩している。
しかし、従来のトランスフォーマーベースのアプローチは通常、左から右へのトークンでシーケンス結果トークンを生成し、右から左へのコンテキストは未展開である。
本研究では,異なる方向の文脈を同時に利用する双方向音声変換器を提案する。
具体的には、提案するトランスの出力には、左右のターゲットと左右のターゲットが含まれる。
推定段階では、左右の候補を生成できるだけでなく、左右の候補を生成できる双方向ビーム探索法を導入し、スコアによって最適な仮説を決定する。
双方向デコーダ(STBD)を用いた音声変換器を提案するため,AISHELL-1データセットについて広範な実験を行った。
実験の結果、STBDは一方向の音声変換器ベースライン上で3.6\%のCER削減(CERR)を達成することがわかった。
さらに,STBD-Bigと呼ばれる最強のモデルでは,言語モデル再構成や追加データ拡張戦略を使わずに,テストセット上で6.64\%のCERを達成できる。
関連論文リスト
- Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement [17.645026729525462]
混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:11:12Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Non-autoregressive Transformer with Unified Bidirectional Decoder for
Automatic Speech Recognition [20.93536420298548]
統一デコーダ(NAT-UBD)を用いた非自己回帰変換器を提案する。
NAT-UBDはAishell1の開発/テストセットで5.0%/5.5%の文字誤り率(CER)を達成でき、以前のNARトランスフォーマーモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-09-14T13:39:39Z) - BeamTransformer: Microphone Array-based Overlapping Speech Detection [52.11665331754917]
BeamTransformerは、異なる空間方向からの信号間の逐次関係のモデリングを最適化することを目指している。
ビームトランスフォーマーは、異なるビームシーケンス間の関係を識別するために学習において超越する。
BeamTransformerはさらに一歩前進し、重なり合うスピーカーからの音声は、内部的に異なるビームに分離されている。
論文 参考訳(メタデータ) (2021-09-09T06:10:48Z) - Duplex Sequence-to-Sequence Learning for Reversible Machine Translation [53.924941333388155]
機械翻訳のようなシーケンス・ツー・シーケンス(seq2seq)問題は双方向である。
我々は、em二重化seq2seqニューラルネットワークを提案し、機械翻訳に適用する。
広く使用されている機械翻訳ベンチマークの実験は、REDERがリバーシブル機械翻訳の最初の成功を達成することを検証します。
論文 参考訳(メタデータ) (2021-05-07T18:21:57Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Open-Domain Dialogue Generation Based on Pre-trained Language Models [23.828348485513043]
事前訓練された言語モデルは、オープンドメイン対話の応答生成に成功している。
Transformer-ED と Transformer-ED はソース文とターゲット文を別々に用い,(2) Transformer-Dec はソース文とターゲット文の両方に用い,(3) Transformer-MLM はソース側の双方向の注意とターゲット側の左右の注意をマスクした言語モデルで用いた。
我々はこれらのフレームワークを3つのデータセットで比較し、最適なフレームワークがソース側で双方向の注意を使っており、エンコーダとデコーダを分離していないことを明らかにした。
論文 参考訳(メタデータ) (2020-10-24T04:52:28Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。