論文の概要: Uconv-Conformer: High Reduction of Input Sequence Length for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2208.07657v1
- Date: Tue, 16 Aug 2022 10:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 13:04:47.976486
- Title: Uconv-Conformer: High Reduction of Input Sequence Length for End-to-End
Speech Recognition
- Title(参考訳): Uconv-Conformer:エンドツーエンド音声認識における入力列長の高精度化
- Authors: Andrei Andrusenko, Rauf Nasretdinov, Aleksei Romanenko
- Abstract要約: この研究は、標準のコンフォーマーモデルに基づく新しいUconv-Conformerアーキテクチャを提案する。
我々は、U-Netアーキテクチャに似たアップサンプリングブロックを用いて、正しいCTC損失計算とネットワークトレーニングの安定化を図る。
Uconv-Conformerアーキテクチャは、トレーニングと推論の点で高速であるだけでなく、ベースラインのConformerよりもWERが優れている。
- 参考スコア(独自算出の注目度): 3.3627327936627416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization of modern ASR architectures is among the highest priority tasks
since it saves many computational resources for model training and inference.
The work proposes a new Uconv-Conformer architecture based on the standard
Conformer model that consistently reduces the input sequence length by 16
times, which results in speeding up the work of the intermediate layers. To
solve the convergence problem with such a significant reduction of the time
dimension, we use upsampling blocks similar to the U-Net architecture to ensure
the correct CTC loss calculation and stabilize network training. The
Uconv-Conformer architecture appears to be not only faster in terms of training
and inference but also shows better WER compared to the baseline Conformer. Our
best Uconv-Conformer model showed 40.3% epoch training time reduction, 47.8%,
and 23.5% inference acceleration on the CPU and GPU, respectively. Relative WER
on Librispeech test_clean and test_other decreased by 7.3% and 9.2%.
- Abstract(参考訳): 現代のASRアーキテクチャの最適化は、モデルトレーニングと推論のために多くの計算資源を節約するため、最優先課題の一つである。
この研究は、標準適合モデルに基づく新しいuconv-conformerアーキテクチャを提案し、入力シーケンスの長さを16倍に抑え、中間層の処理を高速化する。
このような時間次元の大幅な削減による収束問題を解決するため、U-Netアーキテクチャに似たアップサンプリングブロックを用いて、正しいCTC損失計算を行い、ネットワークトレーニングを安定化する。
Uconv-Conformerアーキテクチャは、トレーニングと推論の点で高速であるだけでなく、ベースラインのConformerよりもWERが優れている。
我々の最高のUconv-Conformerモデルは、CPUとGPUでそれぞれ40.3%のエポックトレーニング時間短縮、47.8%、23.5%の推論アクセラレーションを示した。
Librispeech test_clean と test_other の相対 WER は7.3% と 9.2% に減少した。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Efficient Neural Net Approaches in Metal Casting Defect Detection [0.0]
本研究は,精度と推定時間の観点から効率の良い軽量アーキテクチャを提案する。
以上の結果から,深度的に分離可能な畳み込みを持つ590Kパラメータのカスタムモデルが事前学習アーキテクチャよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-08-08T13:54:36Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Pruning In Time (PIT): A Lightweight Network Architecture Optimizer for
Temporal Convolutional Networks [20.943095081056857]
時間的畳み込みネットワーク(TCN)は、時系列処理タスクのためのディープラーニングモデルを約束している。
本稿では,時間軸の重み付け問題に対処し,重みとともに拡張因子を学習する自動拡張法を提案する。
論文 参考訳(メタデータ) (2022-03-28T14:03:16Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - Efficient conformer: Progressive downsampling and grouped attention for
automatic speech recognition [2.6346614942667235]
計算予算が限られているコンフォーマーアーキテクチャの複雑さを軽減する方法について検討する。
コンフォーマーエンコーダにプログレッシブダウンサンプリングを導入し,グループアテンションと呼ばれる新しいアテンション機構を提案する。
同じコンピューティング予算内では、提案されたアーキテクチャは、より高速なトレーニングとデコードでより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-31T07:48:06Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。