Fugu-MT 論文翻訳(概要): Efficient Encoders for Streaming Sequence Tagging

論文の概要: Efficient Encoders for Streaming Sequence Tagging

arxiv url: http://arxiv.org/abs/2301.09244v1
Date: Mon, 23 Jan 2023 02:20:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-24 14:20:08.274980
Title: Efficient Encoders for Streaming Sequence Tagging
Title（参考訳）: ストリームシーケンスタギングのための効率的なエンコーダ
Authors: Ayush Kaushal, Aditya Gupta, Shyam Upadhyay, Manaal Faruqui
Abstract要約: ストリーミングシーケンスタギングのための最先端双方向エンコーダの単純適用には、インクリメンタルストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。オフライン(あるいは完全)入力上で双方向エンコーダの性能を維持しながら,これらの問題に対処するHEAR(Adaptive Restart)を提案する。
参考スコア（独自算出の注目度）: 13.692806815196077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A naive application of state-of-the-art bidirectional encoders for streaming sequence tagging would require encoding each token from scratch for each new token in an incremental streaming input (like transcribed speech). The lack of re-usability of previous computation leads to a higher number of Floating Point Operations (or FLOPs) and higher number of unnecessary label flips. Increased FLOPs consequently lead to higher wall-clock time and increased label flipping leads to poorer streaming performance. In this work, we present a Hybrid Encoder with Adaptive Restart (HEAR) that addresses these issues while maintaining the performance of bidirectional encoders over the offline (or complete) inputs while improving performance on streaming (or incomplete) inputs. HEAR has a Hybrid unidirectional-bidirectional encoder architecture to perform sequence tagging, along with an Adaptive Restart Module (ARM) to selectively guide the restart of bidirectional portion of the encoder. Across four sequence tagging tasks, HEAR offers FLOP savings in streaming settings upto 71.1% and also outperforms bidirectional encoders for streaming predictions by upto +10% streaming exact match.
Abstract（参考訳）: ストリーミングシーケンスのタグ付けに最先端の双方向エンコーダを適用するには、インクリメンタルなストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。 FLOPの増加は結果としてウォールクロック時間の増加とラベルのフリップの増加によってストリーミング性能が低下する。本研究では,オフライン(あるいは完全)入力よりも双方向エンコーダの性能を維持しつつ,ストリーミング(あるいは不完全)入力の性能を向上させるとともに,これらの問題に対処するハイブリッドエンコーダを提案する。 HEARは、シーケンスタグ付けを行うためのハイブリッド一方向双方向エンコーダアーキテクチャと、エンコーダの双方向部分の再起動を選択的に導くアダプティブリスタートモジュール(ARM)を備えている。 4つのシーケンスタギングタスク全体で、HEARはストリーミング設定において最大71.1%のFLOPセーブを提供し、ストリーミングの正確な一致率でストリーミング予測のための双方向エンコーダを上回っている。

関連論文リスト

Scope: Selective Cross-modal Orchestration of Visual Perception Experts [51.29218658993354]
SCOPEはMixture-of-Encodersフレームワークで、インスタンスレベルのルーティングを通じて画像テキストペアごとに1つの特別なエンコーダを動的に選択する。軽量ルータは、テキストプロンプトと共有視覚特徴間の相互アテンションを使用して、ルーティングされたエンコーダから最適なエンコーダを選択する。注目すべきは、共有された1つプラス1つのルーティングエンコーダを持つSCOPEは、4つの余分なエンコーダを同時に使用し、計算量を24-49%削減する。
論文参考訳（メタデータ） (2025-10-14T20:33:01Z)
Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文参考訳（メタデータ） (2024-03-19T19:27:23Z)
Streaming Sequence Transduction through Dynamic Compression [55.0083843520833]
本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。 STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
論文参考訳（メタデータ） (2024-02-02T06:31:50Z)
DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文参考訳（メタデータ） (2023-11-15T01:01:02Z)
Streaming parallel transducer beam search with fast-slow cascaded encoders [23.416682253435837]
RNNトランスデューサのストリーミングおよび非ストリーミングASRは、因果エンコーダと非因果エンコーダをカスケードすることで統一することができる。高速スローエンコーダから復号するトランスデューサのための並列時間同期ビーム探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-29T17:29:39Z)
Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文参考訳（メタデータ） (2020-10-28T15:00:09Z)
Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%～27%の相対的改善が得られた。
論文参考訳（メタデータ） (2020-10-27T20:59:50Z)
Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文参考訳（メタデータ） (2020-10-27T17:38:51Z)
On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文参考訳（メタデータ） (2020-04-24T16:57:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。