論文の概要: Attention Enhanced Citrinet for Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.00261v1
- Date: Thu, 1 Sep 2022 06:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:39:20.413603
- Title: Attention Enhanced Citrinet for Speech Recognition
- Title(参考訳): 音声認識のための注意増強シトリネット
- Authors: Xianchao Wu
- Abstract要約: 我々は,Citrinetブロックの畳み込みモジュールにおいて,フィードフォワードネットワークとともにマルチヘッドアテンションを導入する。
高速化のために,注目度の高いCitrinetブロックの8つの畳み込み層を除去し,23ブロックを13に削減する。
実験により、レイヤーやブロックが少なく、文字エラー率の低いCitrinetがより高速に収束することが示された。
- 参考スコア(独自算出の注目度): 1.4649095013539173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Citrinet is an end-to-end convolutional Connectionist Temporal Classification
(CTC) based automatic speech recognition (ASR) model. To capture local and
global contextual information, 1D time-channel separable convolutions combined
with sub-word encoding and squeeze-and-excitation (SE) are used in Citrinet,
making the whole architecture to be as deep as including 23 blocks with 235
convolution layers and 46 linear layers. This pure convolutional and deep
architecture makes Critrinet relatively slow at convergence. In this paper, we
propose to introduce multi-head attentions together with feed-forward networks
in the convolution module in Citrinet blocks while keeping the SE module and
residual module unchanged. For speeding up, we remove 8 convolution layers in
each attention-enhanced Citrinet block and reduce 23 blocks to 13. Experiments
on the Japanese CSJ-500h and Magic-1600h dataset show that the
attention-enhanced Citrinet with less layers and blocks and converges faster
with lower character error rates than (1) Citrinet with 80\% training time and
(2) Conformer with 40\% training time and 29.8\% model size.
- Abstract(参考訳): Citrinet(シトリネット)は、CTC(CTC)に基づく自動音声認識(ASR)モデルである。
局所的およびグローバルな文脈情報をキャプチャするために、Citrinetではサブワードエンコーディングと圧縮・アンド・エキサイティング(SE)を組み合わせた1D時間チャネル分離畳み込みが使用され、アーキテクチャ全体が23ブロック、畳み込み層は235、線形層は46である。
この純粋な畳み込みと深いアーキテクチャにより、Critrinetは収束が比較的遅い。
本稿では,seモジュールと残留モジュールを不変に保ちながら,citrinetブロックの畳み込みモジュールに,フィードフォワードネットワークと共にマルチヘッド注意を導入することを提案する。
高速化のために,注目度の高いCitrinetブロックの8つの畳み込み層を除去し,23ブロックを13に削減する。
CSJ-500h と Magic-1600h のデータセットを用いた実験では,(1) 学習時間 80 %,(2) 学習時間 40 %,モデルサイズ 29.8 % のCitrinet よりも低い文字誤り率で,注意を増すCitrinet がより高速に収束することがわかった。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - Filter Pruning For CNN With Enhanced Linear Representation Redundancy [3.853146967741941]
本稿では,CCM-loss という同一層内の異なる特徴写像の相関行列から計算したデータ駆動損失関数の項を示す。
CCM-lossは、L*-ノルム正規化以外に、別の普遍的超越数学的ツールを提供する。
新しい戦略では、主にネットワーク内の情報フローの整合性と整合性に注目します。
論文 参考訳(メタデータ) (2023-10-10T06:27:30Z) - Deep Sparse Conformer for Speech Recognition [1.4649095013539173]
コンフォーマーは自動音声認識において印象的な結果を得た。
我々は、時間複雑性とメモリ使用量において$mathcalO(LtextlogL)$でスパース自己保持機構を適用する。
日本のCSJ-500hデータセットでは、この深いスパースコンフォーマーはそれぞれ5.52%、4.03%、および4.50%のCERを達成する。
論文 参考訳(メタデータ) (2022-09-01T06:56:11Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Rethinking Dilated Convolution for Real-time Semantic Segmentation [0.0]
背骨全体に大きな拡張率を持つ拡張畳み込みを用いて異なるアプローチをとる。
我々のモデルであるRegSegは、リアルタイムのCityscapesとCamVidデータセットの競合的な結果を達成する。
論文 参考訳(メタデータ) (2021-11-18T22:08:21Z) - Audio-visual Attentive Fusion for Continuous Emotion Recognition [12.211342881526276]
本稿では,(1)事前学習した2D-CNNを含む視覚ブロックと,(2)複数の並列TNを含む聴覚ブロック,(3)オーディオ視覚情報を組み合わせたリーダ・フォロワー注意融合ブロックを提案する。
論文 参考訳(メタデータ) (2021-07-02T16:28:55Z) - Combining Spatial Clustering with LSTM Speech Models for Multichannel
Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。
しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。
本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文 参考訳(メタデータ) (2020-12-02T22:37:50Z) - Lip-reading with Densely Connected Temporal Convolutional Networks [61.66144695679362]
本稿では,孤立した単語の唇読解のためのDensely Connected Temporal Convolutional Network (DC-TCN)を提案する。
我々の手法はWildデータセットのLip Readingで88.36%、LRW-1000データセットで43.65%の精度を達成した。
論文 参考訳(メタデータ) (2020-09-29T18:08:15Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。