論文の概要: Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection
- arxiv url: http://arxiv.org/abs/2005.11185v2
- Date: Tue, 13 Oct 2020 16:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:33:43.056274
- Title: Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection
- Title(参考訳): 部分仮説選択による低レイテンシ連続音声認識と翻訳
- Authors: Danni Liu, Gerasimos Spanakis, Jan Niehues
- Abstract要約: チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
- 参考スコア(独自算出の注目度): 15.525314212209562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoder-decoder models provide a generic architecture for
sequence-to-sequence tasks such as speech recognition and translation. While
offline systems are often evaluated on quality metrics like word error rates
(WER) and BLEU, latency is also a crucial factor in many practical use-cases.
We propose three latency reduction techniques for chunk-based incremental
inference and evaluate their efficiency in terms of accuracy-latency trade-off.
On the 300-hour How2 dataset, we reduce latency by 83% to 0.8 second by
sacrificing 1% WER (6% rel.) compared to offline transcription. Although our
experiments use the Transformer, the hypothesis selection strategies are
applicable to other encoder-decoder models. To avoid expensive re-computation,
we use a unidirectionally-attending encoder. After an adaptation procedure to
partial sequences, the unidirectional model performs on-par with the original
model. We further show that our approach is also applicable to low-latency
speech translation. On How2 English-Portuguese speech translation, we reduce
latency to 0.7 second (-84% rel.) while incurring a loss of 2.4 BLEU points (5%
rel.) compared to the offline system.
- Abstract(参考訳): エンコーダ-デコーダモデルは、音声認識や翻訳といったシーケンスからシーケンスへのタスクのための汎用アーキテクチャを提供する。
オフラインシステムはワードエラー率(WER)やBLEUといった品質指標で評価されることが多いが、多くの実用的なユースケースにおいてレイテンシも重要な要素である。
本稿では,チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案し,その効率を精度-レイテンシトレードオフの観点から評価する。
300時間のHow2データセットでは、オフラインの書き込みに比べて1% WER (6% rel.) を犠牲にすることで、レイテンシを83%から0.8秒に削減します。
実験ではTransformerを用いたが、仮説選択戦略は他のエンコーダ・デコーダモデルに適用できる。
高価な再計算を避けるため、一方向対応エンコーダを用いる。
部分列への適応手順の後、一方向モデルは元のモデルと対等に実行される。
さらに,本手法は低レイテンシ音声翻訳にも応用できることを示す。
How2英語とポルトガル語の音声翻訳では、レイテンシを0.7秒 (84% rel.) に削減し、オフラインシステムと比較して2.4 BLEUポイント (5% rel.) を失う。
関連論文リスト
- Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment [0.14999444543328289]
本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
論文 参考訳(メタデータ) (2024-06-09T13:42:51Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z) - Low Latency ASR for Simultaneous Speech Translation [27.213294097841853]
我々は,音声認識と音声翻訳モジュールの両コンポーネントのレイテンシを低減するために,いくつかの手法を開発した。
ストリーム復号と動的出力更新のためのプロトコルを用いて,ランオン復号とストリーム復号時の安定部分仮説を同定する手法を組み合わせた。
この組み合わせは単語レベルでの遅延を減らし、単語は最終であり、将来は18.1sから1.1sまで性能を犠牲にすることなく更新されることはない。
論文 参考訳(メタデータ) (2020-03-22T13:37:05Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。