論文の概要: StableEmit: Selection Probability Discount for Reducing Emission Latency
of Streaming Monotonic Attention ASR
- arxiv url: http://arxiv.org/abs/2107.00635v1
- Date: Thu, 1 Jul 2021 17:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:37:44.566011
- Title: StableEmit: Selection Probability Discount for Reducing Emission Latency
of Streaming Monotonic Attention ASR
- Title(参考訳): StableEmit: ストリーミング単調アテンションASRの発光遅延低減のための選択確率分散
- Authors: Hirofumi Inaguma, Tatsuya Kawahara
- Abstract要約: 我々は,MoChAが早期にトークンを発行することを奨励するために,単純なアライメントフリーの正規化手法であるStableEmitを提案する。
以上の結果から,StableEmitは認識誤差と発光遅延を同時に低減することがわかった。
- 参考スコア(独自算出の注目度): 46.69852287267763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While attention-based encoder-decoder (AED) models have been successfully
extended to the online variants for streaming automatic speech recognition
(ASR), such as monotonic chunkwise attention (MoChA), the models still have a
large label emission latency because of the unconstrained end-to-end training
objective. Previous works tackled this problem by leveraging alignment
information to control the timing to emit tokens during training. In this work,
we propose a simple alignment-free regularization method, StableEmit, to
encourage MoChA to emit tokens earlier. StableEmit discounts the selection
probabilities in hard monotonic attention for token boundary detection by a
constant factor and regularizes them to recover the total attention mass during
training. As a result, the scale of the selection probabilities is increased,
and the values can reach a threshold for token emission earlier, leading to a
reduction of emission latency and deletion errors. Moreover, StableEmit can be
combined with methods that constraint alignments to further improve the
accuracy and latency. Experimental evaluations with LSTM and Conformer encoders
demonstrate that StableEmit significantly reduces the recognition errors and
the emission latency simultaneously. We also show that the use of alignment
information is complementary in both metrics.
- Abstract(参考訳): アテンションベースのエンコーダデコーダ(AED)モデルは、モノトニックチャンクワイドアテンション(MoChA)のような自動音声認識(ASR)のオンライン版に拡張されているが、制約のないエンドツーエンドのトレーニング目的のため、まだ大きなラベル出力遅延がある。
以前の作業では、トレーニング中にトークンを発行するタイミングを制御するためにアライメント情報を活用することでこの問題に対処していた。
本研究では,mochaのトークン出力を早期に促すために,アライメントフリーな簡単な正規化手法であるstableemitを提案する。
stableemitはトークン境界検出のためのハードモノトニックアテンションの選択確率を一定係数で割引し、トレーニング中に全体のアテンション質量を回復するように規則化する。
その結果、選択確率のスケールが増大し、その値は早期にトークン放出のしきい値に達することができ、発光遅延と削除エラーが減少する。
さらに、stableemitと制約アライメントを組み合わせることで、精度とレイテンシをさらに向上することができる。
lstmとコンフォーメータエンコーダによる実験的評価では、stableemitは認識エラーとエミッションレイテンシを同時に低減できることが示されている。
また,両指標ともアライメント情報の利用が相補的であることを示した。
関連論文リスト
- Quantized and Asynchronous Federated Learning [22.40154714677385]
我々は,通信ボトルネックに対処する新しい手法であるQuantized Federated AsynchronousQALを開発した。
我々はQALが一様クライアントの到着を必要とせずに$mathtcalqr$dic収束を実現することを証明した。
提案手法を標準ベンチマークを用いて検証する。
論文 参考訳(メタデータ) (2024-09-30T21:22:41Z) - DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - Scalable Numerical Embeddings for Multivariate Time Series: Enhancing Healthcare Data Representation Learning [6.635084843592727]
独立トークンとして各特徴値を扱う新しいフレームワークであるSCANEを提案する。
SCANEは、異なる機能埋め込みの特性を正規化し、スケーラブルな埋め込みメカニズムを通じて表現学習を強化する。
本研究は,MTSの精度の高い予測出力を実現するために,nUMerical eMbeddIng Transformer (SUMMIT) を開発した。
論文 参考訳(メタデータ) (2024-05-26T13:06:45Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Measurement based estimator scheme for continuous quantum error
correction [52.77024349608834]
正準離散量子誤差補正(DQEC)スキームは、安定器上の射影フォン・ノイマン測度を用いて誤差症候群を有限集合に識別する。
連続的量子誤差補正(CQEC)と呼ばれる連続的な測定に基づく量子エラー補正(QEC)は、DQECよりも高速に実行でき、資源効率も向上できる。
論理量子ビットの計測に基づく推定器 (MBE) を構築することにより, 物理量子ビットに発生する誤差をリアルタイムで正確に追跡できることを示す。
論文 参考訳(メタデータ) (2022-03-25T09:07:18Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。