論文の概要: Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition
- arxiv url: http://arxiv.org/abs/2109.06870v1
- Date: Tue, 14 Sep 2021 17:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 17:03:45.189797
- Title: Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition
- Title(参考訳): 音声認識のための教師なし事前学習における性能効率トレードオフ
- Authors: Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav
Artzi
- Abstract要約: 我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
- 参考スコア(独自算出の注目度): 32.61769580342906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is a study of performance-efficiency trade-offs in pre-trained
models for automatic speech recognition (ASR). We focus on wav2vec 2.0, and
formalize several architecture designs that influence both the model
performance and its efficiency. Putting together all our observations, we
introduce SEW (Squeezed and Efficient Wav2vec), a pre-trained model
architecture with significant improvements along both performance and
efficiency dimensions across a variety of training setups. For example, under
the 100h-960h semi-supervised setup on LibriSpeech, SEW achieves a 1.9x
inference speedup compared to wav2vec 2.0, with a 13.5% relative reduction in
word error rate. With a similar inference time, SEW reduces word error rate by
25-50% across different model sizes.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)のための事前学習モデルにおける性能効率トレードオフについて検討する。
我々はwav2vec 2.0に注力し、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を形式化する。
さまざまなトレーニング環境における性能と効率の両面で大きな改善を施した,事前トレーニング済みのモデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介します。
例えば、LibriSpeechの100h-960h半教師付きセットアップでは、SEWはwav2vec 2.0と比較して1.9倍の推論速度を実現し、単語エラー率を13.5%削減している。
同様の推論時間で、SEWは異なるモデルサイズで単語エラー率を25-50%削減する。
関連論文リスト
- Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings [4.266613351203219]
We study the effective of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain。
この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。
論文 参考訳(メタデータ) (2024-05-15T06:59:33Z) - Task-Agnostic Structured Pruning of Speech Representation Models [18.555223754089905]
性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。
SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-06-02T09:11:06Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - Exploring Wav2vec 2.0 fine-tuning for improved speech emotion
recognition [78.92428622630861]
wav2vec 2.0は、音声感情認識(SER)に使用できる
バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。
V-FTがIEMOCAPデータセットの最先端モデルより優れていることを示す。
P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
論文 参考訳(メタデータ) (2021-10-12T19:55:55Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。