論文の概要: Efficient Encoders for Streaming Sequence Tagging
- arxiv url: http://arxiv.org/abs/2301.09244v1
- Date: Mon, 23 Jan 2023 02:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:20:08.274980
- Title: Efficient Encoders for Streaming Sequence Tagging
- Title(参考訳): ストリームシーケンスタギングのための効率的なエンコーダ
- Authors: Ayush Kaushal, Aditya Gupta, Shyam Upadhyay, Manaal Faruqui
- Abstract要約: ストリーミングシーケンスタギングのための最先端双方向エンコーダの単純適用には、インクリメンタルストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。
以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。
オフライン(あるいは完全)入力上で双方向エンコーダの性能を維持しながら,これらの問題に対処するHEAR(Adaptive Restart)を提案する。
- 参考スコア(独自算出の注目度): 13.692806815196077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A naive application of state-of-the-art bidirectional encoders for streaming
sequence tagging would require encoding each token from scratch for each new
token in an incremental streaming input (like transcribed speech). The lack of
re-usability of previous computation leads to a higher number of Floating Point
Operations (or FLOPs) and higher number of unnecessary label flips. Increased
FLOPs consequently lead to higher wall-clock time and increased label flipping
leads to poorer streaming performance. In this work, we present a Hybrid
Encoder with Adaptive Restart (HEAR) that addresses these issues while
maintaining the performance of bidirectional encoders over the offline (or
complete) inputs while improving performance on streaming (or incomplete)
inputs. HEAR has a Hybrid unidirectional-bidirectional encoder architecture to
perform sequence tagging, along with an Adaptive Restart Module (ARM) to
selectively guide the restart of bidirectional portion of the encoder. Across
four sequence tagging tasks, HEAR offers FLOP savings in streaming settings
upto 71.1% and also outperforms bidirectional encoders for streaming
predictions by upto +10% streaming exact match.
- Abstract(参考訳): ストリーミングシーケンスのタグ付けに最先端の双方向エンコーダを適用するには、インクリメンタルなストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。
以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。
FLOPの増加は結果としてウォールクロック時間の増加とラベルのフリップの増加によってストリーミング性能が低下する。
本研究では,オフライン(あるいは完全)入力よりも双方向エンコーダの性能を維持しつつ,ストリーミング(あるいは不完全)入力の性能を向上させるとともに,これらの問題に対処するハイブリッドエンコーダを提案する。
HEARは、シーケンスタグ付けを行うためのハイブリッド一方向双方向エンコーダアーキテクチャと、エンコーダの双方向部分の再起動を選択的に導くアダプティブリスタートモジュール(ARM)を備えている。
4つのシーケンスタギングタスク全体で、HEARはストリーミング設定において最大71.1%のFLOPセーブを提供し、ストリーミングの正確な一致率でストリーミング予測のための双方向エンコーダを上回っている。
関連論文リスト
- Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Streaming Sequence Transduction through Dynamic Compression [55.0083843520833]
本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。
STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する
STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
論文 参考訳(メタデータ) (2024-02-02T06:31:50Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Streaming parallel transducer beam search with fast-slow cascaded
encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。
高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T17:29:39Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。