論文の概要: Adding Connectionist Temporal Summarization into Conformer to Improve
Its Decoder Efficiency For Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.03889v1
- Date: Fri, 8 Apr 2022 07:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:36:56.565870
- Title: Adding Connectionist Temporal Summarization into Conformer to Improve
Its Decoder Efficiency For Speech Recognition
- Title(参考訳): コンバータへのコネクショニスト時間要約の導入による音声認識におけるデコーダ効率の向上
- Authors: Nick J.C. Wang, Zongfeng Quan, Shaojun Wang, Jing Xiao
- Abstract要約: 本稿では,アテンションデコーダに必要なフレーム数を削減できる新しいコネクショニスト時間要約法を提案する。
ビーム幅が4で、LibriSpeechの復号化予算は最大20%削減できる。
単語誤り率(WER)はビーム幅1で6%、ビーム幅4で3%減少する。
- 参考スコア(独自算出の注目度): 22.61761934996406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Conformer model is an excellent architecture for speech recognition
modeling that effectively utilizes the hybrid losses of connectionist temporal
classification (CTC) and attention to train model parameters. To improve the
decoding efficiency of Conformer, we propose a novel connectionist temporal
summarization (CTS) method that reduces the number of frames required for the
attention decoder fed from the acoustic sequences generated by the encoder,
thus reducing operations. However, to achieve such decoding improvements, we
must fine-tune model parameters, as cross-attention observations are changed
and thus require corresponding refinements. Our final experiments show that,
with a beamwidth of 4, the LibriSpeech's decoding budget can be reduced by up
to 20% and for FluentSpeech data it can be reduced by 11%, without losing ASR
accuracy. An improvement in accuracy is even found for the LibriSpeech
"test-other" set. The word error rate (WER) is reduced by 6\% relative at the
beam width of 1 and by 3% relative at the beam width of 4.
- Abstract(参考訳): Conformerモデルは,コネクショナリズム時間分類(CTC)のハイブリッド損失と,列車モデルパラメータへの注意を効果的に活用する,音声認識モデリングのための優れたアーキテクチャである。
コンフォーマの復号効率を向上させるために,エンコーダが生成する音響シーケンスから供給されるアテンションデコーダに必要なフレーム数を削減し,操作を削減した新しいコネクショニスト時相要約法(cts)を提案する。
しかし、このような復号化を実現するためには、相互注意観察が変更され、それに対応する改良が必要であるため、微調整モデルパラメーターが必要である。
最後の実験では、4本のビーム幅でLibriSpeechの復号化予算を最大20%削減でき、FluentSpeechのデータではASRの精度を失うことなく11%削減できることを示した。
LibriSpeech の "test-other" セットでも精度が向上している。
単語誤り率(wer)をビーム幅1で6対%、ビーム幅4で3%減少させる。
関連論文リスト
- Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding [24.472393096460774]
本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。
私たちの中核となる考え方は、複数の予測ヘッドを使用して、ARモジュールの推論ステップ毎に複数のトークンを予測することです。
実験では,各トークンの予測に要する時間は,ベースラインモデルと比較して4~5に短縮された。
論文 参考訳(メタデータ) (2024-10-17T17:55:26Z) - A Principled Hierarchical Deep Learning Approach to Joint Image
Compression and Classification [27.934109301041595]
本研究は,エンコーダを誘導し,コンパクトで差別的で,一般的な拡張/変換に適した特徴を抽出する3段階共同学習戦略を提案する。
CIFAR-10では最大1.5%,CIFAR-100では3%,従来のE2Eクロスエントロピートレーニングでは3%の精度向上が得られた。
論文 参考訳(メタデータ) (2023-10-30T15:52:18Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Scaling Up Online Speech Recognition Using ConvNets [33.75588539732141]
我々は、TDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムを設計する。
我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。
このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
論文 参考訳(メタデータ) (2020-01-27T12:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。