論文の概要: Attention Enhanced Citrinet for Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.00261v1
- Date: Thu, 1 Sep 2022 06:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:39:20.413603
- Title: Attention Enhanced Citrinet for Speech Recognition
- Title(参考訳): 音声認識のための注意増強シトリネット
- Authors: Xianchao Wu
- Abstract要約: 我々は,Citrinetブロックの畳み込みモジュールにおいて,フィードフォワードネットワークとともにマルチヘッドアテンションを導入する。
高速化のために,注目度の高いCitrinetブロックの8つの畳み込み層を除去し,23ブロックを13に削減する。
実験により、レイヤーやブロックが少なく、文字エラー率の低いCitrinetがより高速に収束することが示された。
- 参考スコア(独自算出の注目度): 1.4649095013539173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Citrinet is an end-to-end convolutional Connectionist Temporal Classification
(CTC) based automatic speech recognition (ASR) model. To capture local and
global contextual information, 1D time-channel separable convolutions combined
with sub-word encoding and squeeze-and-excitation (SE) are used in Citrinet,
making the whole architecture to be as deep as including 23 blocks with 235
convolution layers and 46 linear layers. This pure convolutional and deep
architecture makes Critrinet relatively slow at convergence. In this paper, we
propose to introduce multi-head attentions together with feed-forward networks
in the convolution module in Citrinet blocks while keeping the SE module and
residual module unchanged. For speeding up, we remove 8 convolution layers in
each attention-enhanced Citrinet block and reduce 23 blocks to 13. Experiments
on the Japanese CSJ-500h and Magic-1600h dataset show that the
attention-enhanced Citrinet with less layers and blocks and converges faster
with lower character error rates than (1) Citrinet with 80\% training time and
(2) Conformer with 40\% training time and 29.8\% model size.
- Abstract(参考訳): Citrinet(シトリネット)は、CTC(CTC)に基づく自動音声認識(ASR)モデルである。
局所的およびグローバルな文脈情報をキャプチャするために、Citrinetではサブワードエンコーディングと圧縮・アンド・エキサイティング(SE)を組み合わせた1D時間チャネル分離畳み込みが使用され、アーキテクチャ全体が23ブロック、畳み込み層は235、線形層は46である。
この純粋な畳み込みと深いアーキテクチャにより、Critrinetは収束が比較的遅い。
本稿では,seモジュールと残留モジュールを不変に保ちながら,citrinetブロックの畳み込みモジュールに,フィードフォワードネットワークと共にマルチヘッド注意を導入することを提案する。
高速化のために,注目度の高いCitrinetブロックの8つの畳み込み層を除去し,23ブロックを13に削減する。
CSJ-500h と Magic-1600h のデータセットを用いた実験では,(1) 学習時間 80 %,(2) 学習時間 40 %,モデルサイズ 29.8 % のCitrinet よりも低い文字誤り率で,注意を増すCitrinet がより高速に収束することがわかった。
関連論文リスト
- Integral Continual Learning Along the Tangent Vector Field of Tasks [137.21346040303663]
本稿では,特殊データセットからの情報を段階的に組み込んだ連続学習手法を提案する。
本研究では,Seq-CIFAR-10の性能向上に向けて,誤差を36%削減して最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-11-23T16:49:26Z) - Deep Sparse Conformer for Speech Recognition [1.4649095013539173]
コンフォーマーは自動音声認識において印象的な結果を得た。
我々は、時間複雑性とメモリ使用量において$mathcalO(LtextlogL)$でスパース自己保持機構を適用する。
日本のCSJ-500hデータセットでは、この深いスパースコンフォーマーはそれぞれ5.52%、4.03%、および4.50%のCERを達成する。
論文 参考訳(メタデータ) (2022-09-01T06:56:11Z) - Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [56.81492360414741]
本稿では、コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリングという新しい深層クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Audio-visual Attentive Fusion for Continuous Emotion Recognition [12.211342881526276]
本稿では,(1)事前学習した2D-CNNを含む視覚ブロックと,(2)複数の並列TNを含む聴覚ブロック,(3)オーディオ視覚情報を組み合わせたリーダ・フォロワー注意融合ブロックを提案する。
論文 参考訳(メタデータ) (2021-07-02T16:28:55Z) - Combining Spatial Clustering with LSTM Speech Models for Multichannel
Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。
しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。
本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文 参考訳(メタデータ) (2020-12-02T22:37:50Z) - Lip-reading with Densely Connected Temporal Convolutional Networks [61.66144695679362]
本稿では,孤立した単語の唇読解のためのDensely Connected Temporal Convolutional Network (DC-TCN)を提案する。
我々の手法はWildデータセットのLip Readingで88.36%、LRW-1000データセットで43.65%の精度を達成した。
論文 参考訳(メタデータ) (2020-09-29T18:08:15Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human
Action Recognition [42.400429835080416]
従来の3D畳み込みニューラルネットワーク(CNN)は計算コストが高く、メモリ集約性があり、過度に適合する傾向がある。
本稿では,3次元CNNにおける3次元畳み込み層の代替として機能する新しい畳み込みブロックのクラスを提案する。
Some-something v1, v2, Jester, Diving Kinetics-400, UCF 101, HMDB 51を含む7つの行動認識データセットについて,STFTブロックをベースとした3D CNNが,現状と比較して同等以上の性能で達成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-22T12:26:04Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。