論文の概要: ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs
- arxiv url: http://arxiv.org/abs/2305.10649v1
- Date: Thu, 18 May 2023 02:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:18:53.627872
- Title: ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs
- Title(参考訳): zeroprompt:ストリーミング音響エンコーダはゼロショットマスクlms
- Authors: Xingchen Song, Di Wu, Binbin Zhang, Zhendong Peng, Bo Dang, Fuping
Pan, Zhiyong Wu
- Abstract要約: 我々はZeroPromptとそれに対応するPrompt-and-Refine戦略を示し、ストリーミングASRモデルのToken Display Time(TDT)を減少させる。
ZeroPromptの中核となる考え方は、推論中に各チャンクへのコンテントをゼロにすることだ。
我々は、理論上、実験上、WERが等しい第1トーケン表示時間(TDT-F)で350$700ms、最終トーケン表示時間(TDT-L)で100$400msの削減を実現した。
- 参考スコア(独自算出の注目度): 11.769911396613562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present ZeroPrompt (Figure 1-(a)) and the corresponding
Prompt-and-Refine strategy (Figure 3), two simple but effective
\textbf{training-free} methods to decrease the Token Display Time (TDT) of
streaming ASR models \textbf{without any accuracy loss}. The core idea of
ZeroPrompt is to append zeroed content to each chunk during inference, which
acts like a prompt to encourage the model to predict future tokens even before
they were spoken. We argue that streaming acoustic encoders naturally have the
modeling ability of Masked Language Models and our experiments demonstrate that
ZeroPrompt is engineering cheap and can be applied to streaming acoustic
encoders on any dataset without any accuracy loss. Specifically, compared with
our baseline models, we achieve 350 $\sim$ 700ms reduction on First Token
Display Time (TDT-F) and 100 $\sim$ 400ms reduction on Last Token Display Time
(TDT-L), with theoretically and experimentally equal WER on both Aishell-1 and
Librispeech datasets.
- Abstract(参考訳): 本稿では,ストリーミングasrモデルのトークン表示時間(tdt)を減少させるために,0prompt(図1-(a))と対応するprompt-and-refine strategy(図3)を提案する。
ZeroPromptの中核となる考え方は、推論中に各チャンクにゼロコンテンツを追加することである。
我々は,ストリーミング音響エンコーダは自然にマスキング言語モデルのモデリング能力を有しており,実験によりzeropromptは工学的に安価であり,精度を損なうことなく任意のデータセット上のストリーミング音響エンコーダに適用できることが示されている。
具体的には, ベースラインモデルと比較して, Aishell-1 と Librispeech のデータセットに対して, 350$\sim$700ms, 100$\sim$400ms, Last Token Display Time (TDT-L) で350$400ms, 理論上および実験的に等しいWERを実現した。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。
代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう?
私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文 参考訳(メタデータ) (2023-10-03T17:32:41Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - TrimTail: Low-Latency Streaming ASR with Simple but Effective
Spectrogram-Level Length Penalty [14.71509986713044]
本稿では,ストリーミングASRモデルのレイテンシを改善するために,TrimTailを提案する。
Aishell-1とLibrispeechで100$sim$200msの遅延低減を実現した。
論文 参考訳(メタデータ) (2022-11-01T15:12:34Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。