論文の概要: Deep Sparse Conformer for Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.00260v1
- Date: Thu, 1 Sep 2022 06:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:39:44.843389
- Title: Deep Sparse Conformer for Speech Recognition
- Title(参考訳): 音声認識のためのディープスパース変換器
- Authors: Xianchao Wu
- Abstract要約: コンフォーマーは自動音声認識において印象的な結果を得た。
我々は、時間複雑性とメモリ使用量において$mathcalO(LtextlogL)$でスパース自己保持機構を適用する。
日本のCSJ-500hデータセットでは、この深いスパースコンフォーマーはそれぞれ5.52%、4.03%、および4.50%のCERを達成する。
- 参考スコア(独自算出の注目度): 1.4649095013539173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conformer has achieved impressive results in Automatic Speech Recognition
(ASR) by leveraging transformer's capturing of content-based global
interactions and convolutional neural network's exploiting of local features.
In Conformer, two macaron-like feed-forward layers with half-step residual
connections sandwich the multi-head self-attention and convolution modules
followed by a post layer normalization. We improve Conformer's long-sequence
representation ability in two directions, \emph{sparser} and \emph{deeper}. We
adapt a sparse self-attention mechanism with $\mathcal{O}(L\text{log}L)$ in
time complexity and memory usage. A deep normalization strategy is utilized
when performing residual connections to ensure our training of hundred-level
Conformer blocks. On the Japanese CSJ-500h dataset, this deep sparse Conformer
achieves respectively CERs of 5.52\%, 4.03\% and 4.50\% on the three evaluation
sets and 4.16\%, 2.84\% and 3.20\% when ensembling five deep sparse Conformer
variants from 12 to 16, 17, 50, and finally 100 encoder layers.
- Abstract(参考訳): conformerは、transformerによるコンテンツベースのグローバルインタラクションのキャプチャと畳み込みニューラルネットワークによる局所的特徴の活用を利用して、自動音声認識(asr)で素晴らしい結果を得ている。
conformerでは、半段の残差接続を持つ2つのマカロン状のフィードフォワード層が、マルチヘッドのセルフアテンションと畳み込みモジュールとポスト層正規化を挟んでいる。
コンフォーマーの長列表現能力を2方向, \emph{sparser} と \emph{deeper} で改善する。
時間複雑性とメモリ使用量で$\mathcal{O}(L\text{log}L)$のスパース自己アテンション機構を適用する。
深い正規化戦略は、数百レベルのコンフォーメータブロックのトレーニングを保証するために、残留接続を実行する際に利用される。
日本のcsj-500hデータセットでは、3つの評価セットで5.52\%,4.03\%,4.50\%,4.16\%,2.84\%,3.20\%のcerをそれぞれ達成し、12~16,16,17,50,および100のエンコーダ層をセンスする。
関連論文リスト
- Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Attention Enhanced Citrinet for Speech Recognition [1.4649095013539173]
我々は,Citrinetブロックの畳み込みモジュールにおいて,フィードフォワードネットワークとともにマルチヘッドアテンションを導入する。
高速化のために,注目度の高いCitrinetブロックの8つの畳み込み層を除去し,23ブロックを13に削減する。
実験により、レイヤーやブロックが少なく、文字エラー率の低いCitrinetがより高速に収束することが示された。
論文 参考訳(メタデータ) (2022-09-01T06:59:50Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - CGS-Net: Aggregating Colour, Geometry and Semantic Features for
Large-Scale Indoor Place Recognition [6.156387608994791]
大規模屋内位置認識へのアプローチとして,低レベルな色と幾何学的特徴を高レベルなセマンティック特徴で集約する手法を提案する。
我々は、RGBポイントクラウドを取り込み、ローカル機能を5つの3次元カーネルポイント畳み込み層で抽出するディープラーニングネットワークを使用している。
具体的には、セマンティックセグメンテーションタスク上でKPConv層をトレーニングし、抽出したローカル機能がセマンティックに意味があることを保証する。
論文 参考訳(メタデータ) (2022-02-04T10:51:25Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Efficient conformer: Progressive downsampling and grouped attention for
automatic speech recognition [2.6346614942667235]
計算予算が限られているコンフォーマーアーキテクチャの複雑さを軽減する方法について検討する。
コンフォーマーエンコーダにプログレッシブダウンサンプリングを導入し,グループアテンションと呼ばれる新しいアテンション機構を提案する。
同じコンピューティング予算内では、提案されたアーキテクチャは、より高速なトレーニングとデコードでより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-31T07:48:06Z) - Do End-to-end Stereo Algorithms Under-utilize Information? [7.538482310185133]
本稿では,2次元および3次元の畳み込みネットワークに適応フィルタリングと半グローバルアグリゲーションを組み込むことによって,エンドツーエンドのステレオマッチングを実現する方法を示す。
改善は、画像からのRGB情報を信号として利用し、マッチングプロセスを動的にガイドすることによる。
論文 参考訳(メタデータ) (2020-10-14T18:32:39Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - Second-Order Provable Defenses against Adversarial Attacks [63.34032156196848]
ネットワークの固有値が有界であれば、凸最適化を用いて$l$ノルムの証明を効率的に計算できることを示す。
認証精度は5.78%,44.96%,43.19%であった。
論文 参考訳(メタデータ) (2020-06-01T05:55:18Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。