論文の概要: StableEmit: Selection Probability Discount for Reducing Emission Latency
of Streaming Monotonic Attention ASR
- arxiv url: http://arxiv.org/abs/2107.00635v1
- Date: Thu, 1 Jul 2021 17:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:37:44.566011
- Title: StableEmit: Selection Probability Discount for Reducing Emission Latency
of Streaming Monotonic Attention ASR
- Title(参考訳): StableEmit: ストリーミング単調アテンションASRの発光遅延低減のための選択確率分散
- Authors: Hirofumi Inaguma, Tatsuya Kawahara
- Abstract要約: 我々は,MoChAが早期にトークンを発行することを奨励するために,単純なアライメントフリーの正規化手法であるStableEmitを提案する。
以上の結果から,StableEmitは認識誤差と発光遅延を同時に低減することがわかった。
- 参考スコア(独自算出の注目度): 46.69852287267763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While attention-based encoder-decoder (AED) models have been successfully
extended to the online variants for streaming automatic speech recognition
(ASR), such as monotonic chunkwise attention (MoChA), the models still have a
large label emission latency because of the unconstrained end-to-end training
objective. Previous works tackled this problem by leveraging alignment
information to control the timing to emit tokens during training. In this work,
we propose a simple alignment-free regularization method, StableEmit, to
encourage MoChA to emit tokens earlier. StableEmit discounts the selection
probabilities in hard monotonic attention for token boundary detection by a
constant factor and regularizes them to recover the total attention mass during
training. As a result, the scale of the selection probabilities is increased,
and the values can reach a threshold for token emission earlier, leading to a
reduction of emission latency and deletion errors. Moreover, StableEmit can be
combined with methods that constraint alignments to further improve the
accuracy and latency. Experimental evaluations with LSTM and Conformer encoders
demonstrate that StableEmit significantly reduces the recognition errors and
the emission latency simultaneously. We also show that the use of alignment
information is complementary in both metrics.
- Abstract(参考訳): アテンションベースのエンコーダデコーダ(AED)モデルは、モノトニックチャンクワイドアテンション(MoChA)のような自動音声認識(ASR)のオンライン版に拡張されているが、制約のないエンドツーエンドのトレーニング目的のため、まだ大きなラベル出力遅延がある。
以前の作業では、トレーニング中にトークンを発行するタイミングを制御するためにアライメント情報を活用することでこの問題に対処していた。
本研究では,mochaのトークン出力を早期に促すために,アライメントフリーな簡単な正規化手法であるstableemitを提案する。
stableemitはトークン境界検出のためのハードモノトニックアテンションの選択確率を一定係数で割引し、トレーニング中に全体のアテンション質量を回復するように規則化する。
その結果、選択確率のスケールが増大し、その値は早期にトークン放出のしきい値に達することができ、発光遅延と削除エラーが減少する。
さらに、stableemitと制約アライメントを組み合わせることで、精度とレイテンシをさらに向上することができる。
lstmとコンフォーメータエンコーダによる実験的評価では、stableemitは認識エラーとエミッションレイテンシを同時に低減できることが示されている。
また,両指標ともアライメント情報の利用が相補的であることを示した。
関連論文リスト
- Rethinking the BERT-like Pretraining for DNA Sequences [72.85177907538872]
既存のDNA配列の事前訓練方法は、NLPからのBERTの直接導入に依存している。
マスク境界を連続的に拡張することにより,BERTのような事前訓練のタスク困難を徐々に増大させるRandomMaskという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:40:57Z) - Persistence-Based Discretization for Learning Discrete Event Systems
from Time Series [50.591267188664666]
Persistは、永続化スコアと呼ばれるスコアを使用して永続的なシンボルを作成するための離散化手法である。
パーシステンススコアで用いられる計量であるクルバック・リーブラーの発散をワッサーシュタイン距離に置き換える。
実験により、改善された永続化スコアは、パーシストが元の時系列の情報を取得する能力を高めることが示されている。
論文 参考訳(メタデータ) (2023-01-12T14:10:30Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - Measurement based estimator scheme for continuous quantum error
correction [52.77024349608834]
正準離散量子誤差補正(DQEC)スキームは、安定器上の射影フォン・ノイマン測度を用いて誤差症候群を有限集合に識別する。
連続的量子誤差補正(CQEC)と呼ばれる連続的な測定に基づく量子エラー補正(QEC)は、DQECよりも高速に実行でき、資源効率も向上できる。
論理量子ビットの計測に基づく推定器 (MBE) を構築することにより, 物理量子ビットに発生する誤差をリアルタイムで正確に追跡できることを示す。
論文 参考訳(メタデータ) (2022-03-25T09:07:18Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。