論文の概要: Accelerating Transducers through Adjacent Token Merging
- arxiv url: http://arxiv.org/abs/2306.16009v1
- Date: Wed, 28 Jun 2023 08:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:05:38.376154
- Title: Accelerating Transducers through Adjacent Token Merging
- Title(参考訳): 隣接トークンマージによるトランスデューサの高速化
- Authors: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
- Abstract要約: 本稿では,隣接するトークンと鍵値間の類似度の高いスコアを徐々に組み合わせた新しい手法,Adjacent Token Merging (A-ToMe)を提案する。
LibriSpeechの実験により,トークンの57%を削減し,GPU上での推論速度を70%向上できることがわかった。
- 参考スコア(独自算出の注目度): 33.07184218085399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent end-to-end automatic speech recognition (ASR) systems often utilize a
Transformer-based acoustic encoder that generates embedding at a high frame
rate. However, this design is inefficient, particularly for long speech signals
due to the quadratic computation of self-attention. To address this, we propose
a new method, Adjacent Token Merging (A-ToMe), which gradually combines
adjacent tokens with high similarity scores between their key values. In this
way, the total time step could be reduced, and the inference of both the
encoder and joint network is accelerated. Experiments on LibriSpeech show that
our method can reduce 57% of tokens and improve the inference speed on GPU by
70% without any notable loss of accuracy. Additionally, we demonstrate that
A-ToMe is also an effective solution to reduce tokens in long-form ASR, where
the input speech consists of multiple utterances.
- Abstract(参考訳): 最近のエンドツーエンド自動音声認識(ASR)システムは、高いフレームレートで埋め込みを生成するトランスフォーマーベースの音響エンコーダを使用することが多い。
しかし、この設計は非効率であり、特に長い音声信号は、自己着脱の二次計算のためである。
そこで本研究では,隣接するトークンと鍵値間の類似度の高いスコアを段階的に組み合わせたAdjacent Token Merging(A-ToMe)を提案する。
これにより、総時間ステップを短縮することができ、エンコーダとジョイントネットワークの両方の推論が高速化される。
LibriSpeechの実験により,トークンの57%を削減し,GPU上での推論速度を70%向上できることがわかった。
さらに、A-ToMeは、入力音声が複数の発話からなる長文ASRにおけるトークンを減らす効果的な解であることを示す。
関連論文リスト
- Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding [24.472393096460774]
本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。
私たちの中核となる考え方は、複数の予測ヘッドを使用して、ARモジュールの推論ステップ毎に複数のトークンを予測することです。
実験では,各トークンの予測に要する時間は,ベースラインモデルと比較して4~5に短縮された。
論文 参考訳(メタデータ) (2024-10-17T17:55:26Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - A Deep-Bayesian Framework for Adaptive Speech Duration Modification [20.99099283004413]
我々はベイズフレームワークを用いて、入力とターゲット発話のフレームをリンクする潜在注意マップを定義する。
マスク付き畳み込みエンコーダ・デコーダネットワークをトレーニングし、このアテンションマップを平均絶対誤差損失関数のバージョンで生成する。
提案手法は,最先端のボコーダに匹敵する高い品質の音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-07-11T05:53:07Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。