論文の概要: Efficient Encoders for Streaming Sequence Tagging
- arxiv url: http://arxiv.org/abs/2301.09244v1
- Date: Mon, 23 Jan 2023 02:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:20:08.274980
- Title: Efficient Encoders for Streaming Sequence Tagging
- Title(参考訳): ストリームシーケンスタギングのための効率的なエンコーダ
- Authors: Ayush Kaushal, Aditya Gupta, Shyam Upadhyay, Manaal Faruqui
- Abstract要約: ストリーミングシーケンスタギングのための最先端双方向エンコーダの単純適用には、インクリメンタルストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。
以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。
オフライン(あるいは完全)入力上で双方向エンコーダの性能を維持しながら,これらの問題に対処するHEAR(Adaptive Restart)を提案する。
- 参考スコア(独自算出の注目度): 13.692806815196077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A naive application of state-of-the-art bidirectional encoders for streaming
sequence tagging would require encoding each token from scratch for each new
token in an incremental streaming input (like transcribed speech). The lack of
re-usability of previous computation leads to a higher number of Floating Point
Operations (or FLOPs) and higher number of unnecessary label flips. Increased
FLOPs consequently lead to higher wall-clock time and increased label flipping
leads to poorer streaming performance. In this work, we present a Hybrid
Encoder with Adaptive Restart (HEAR) that addresses these issues while
maintaining the performance of bidirectional encoders over the offline (or
complete) inputs while improving performance on streaming (or incomplete)
inputs. HEAR has a Hybrid unidirectional-bidirectional encoder architecture to
perform sequence tagging, along with an Adaptive Restart Module (ARM) to
selectively guide the restart of bidirectional portion of the encoder. Across
four sequence tagging tasks, HEAR offers FLOP savings in streaming settings
upto 71.1% and also outperforms bidirectional encoders for streaming
predictions by upto +10% streaming exact match.
- Abstract(参考訳): ストリーミングシーケンスのタグ付けに最先端の双方向エンコーダを適用するには、インクリメンタルなストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。
以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。
FLOPの増加は結果としてウォールクロック時間の増加とラベルのフリップの増加によってストリーミング性能が低下する。
本研究では,オフライン(あるいは完全)入力よりも双方向エンコーダの性能を維持しつつ,ストリーミング(あるいは不完全)入力の性能を向上させるとともに,これらの問題に対処するハイブリッドエンコーダを提案する。
HEARは、シーケンスタグ付けを行うためのハイブリッド一方向双方向エンコーダアーキテクチャと、エンコーダの双方向部分の再起動を選択的に導くアダプティブリスタートモジュール(ARM)を備えている。
4つのシーケンスタギングタスク全体で、HEARはストリーミング設定において最大71.1%のFLOPセーブを提供し、ストリーミングの正確な一致率でストリーミング予測のための双方向エンコーダを上回っている。
関連論文リスト
- Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Streaming parallel transducer beam search with fast-slow cascaded
encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。
高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T17:29:39Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。