論文の概要: Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition
- arxiv url: http://arxiv.org/abs/2310.14954v2
- Date: Sat, 28 Oct 2023 14:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:24:18.237472
- Title: Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition
- Title(参考訳): コンフォーメータに基づくエンドツーエンド音声認識のためのキーフレーム機構
- Authors: Peng Fan, Changhao Shan, Sining Sun, Qing Yang, Jianwei Zhang
- Abstract要約: エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。
しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。
キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
- 参考スコア(独自算出の注目度): 9.803556181225193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Conformer as a backbone network for end-to-end automatic speech
recognition achieved state-of-the-art performance. The Conformer block
leverages a self-attention mechanism to capture global information, along with
a convolutional neural network to capture local information, resulting in
improved performance. However, the Conformer-based model encounters an issue
with the self-attention mechanism, as computational complexity grows
quadratically with the length of the input sequence. Inspired by previous
Connectionist Temporal Classification (CTC) guided blank skipping during
decoding, we introduce intermediate CTC outputs as guidance into the
downsampling procedure of the Conformer encoder. We define the frame with
non-blank output as key frame. Specifically, we introduce the key frame-based
self-attention (KFSA) mechanism, a novel method to reduce the computation of
the self-attention mechanism using key frames. The structure of our proposed
approach comprises two encoders. Following the initial encoder, we introduce an
intermediate CTC loss function to compute the label frame, enabling us to
extract the key frames and blank frames for KFSA. Furthermore, we introduce the
key frame-based downsampling (KFDS) mechanism to operate on high-dimensional
acoustic features directly and drop the frames corresponding to blank labels,
which results in new acoustic feature sequences as input to the second encoder.
By using the proposed method, which achieves comparable or higher performance
than vanilla Conformer and other similar work such as Efficient Conformer.
Meantime, our proposed method can discard more than 60\% useless frames during
model training and inference, which will accelerate the inference speed
significantly. This work code is available in
{https://github.com/scufan1990/Key-Frame-Mechanism-For-Efficient-Conformer}
- Abstract(参考訳): 近年,エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのConformerは,最先端の性能を実現している。
Conformerブロックは、グローバル情報をキャプチャする自己認識メカニズムと、ローカル情報をキャプチャする畳み込みニューラルネットワークを活用して、パフォーマンスが改善される。
しかし、コンフォーメータベースモデルは、計算複雑性が入力シーケンスの長さと2乗的に増加するにつれて、自己着脱機構の問題に遭遇する。
従来のCTC(Connectionist Temporal Classification)にヒントを得て,コンバータエンコーダのダウンサンプリング手順のガイダンスとして中間CTC出力を導入した。
非ブランク出力のフレームをキーフレームとして定義する。
具体的には,キーフレームを用いたセルフアテンション機構の計算量を削減する新しい手法であるkfsa(key frame-based self-attention)機構を提案する。
提案手法の構造は2つのエンコーダからなる。
初期エンコーダに続いて、ラベルフレームを計算するための中間CTC損失関数を導入し、KFSAの鍵フレームと空白フレームを抽出する。
さらに,高次元音響特徴を直接操作し,ブランクラベルに対応するフレームをドロップするkfds(key frame-based downsampling)機構を導入し,第2エンコーダへの入力として新たな音響特徴列を生成する。
提案手法を用いることで,vanilla conformer や efficient conformer などの類似作業と同等あるいは高い性能を実現する。
提案手法は,モデルトレーニングや推論において60\%以上の無駄なフレームを排除し,推論速度を大幅に向上させる。
この作業コードは{https://github.com/scufan1990/key-frame-mechanism-for- efficient-conformer}で利用可能である。
関連論文リスト
- The Conformer Encoder May Reverse the Time Dimension [53.9351497436903]
我々はデコーダのクロスアテンション機構の初期動作を分析し、コンバータエンコーダの自己アテンションが初期フレームと他のすべての情報フレームとの接続を構築することを奨励することを発見した。
本稿では,このフリップを回避する方法とアイデアを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:39:05Z) - Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition [7.963605445905696]
コンフォーマーに基づくアテンションモデルは、音声認識タスクの事実上のバックボーンモデルとなっている。
本研究では,Skipformer という名前の "Skip-and-Recover" Conformer アーキテクチャを提案する。
本モデルでは,Aishell-1の入力シーケンス長を31倍,Librispeech corpusの22倍に短縮する。
論文 参考訳(メタデータ) (2024-03-13T05:20:45Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。