論文の概要: Shrinking Bigfoot: Reducing wav2vec 2.0 footprint
- arxiv url: http://arxiv.org/abs/2103.15760v1
- Date: Mon, 29 Mar 2021 16:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 17:36:22.777312
- Title: Shrinking Bigfoot: Reducing wav2vec 2.0 footprint
- Title(参考訳): Bigfootの縮小 - wav2vec 2.0フットプリント削減
- Authors: Zilun Peng, Akshay Budhkar, Ilana Tuil, Jason Levy, Parinaz Sobhani,
Raphael Cohen, Jumana Nassour
- Abstract要約: Wav2vec 2.0は自動音声認識(ASR)のための最先端エンド・ツー・エンド(E2E)システムである
- 参考スコア(独自算出の注目度): 4.708858512006221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wav2vec 2.0 is a state-of-the-art End-to-end (E2E) system for automatic
speech recognition (ASR) which maps speech audio waveforms into latent
representations. The largest version of wav2vec 2.0 contains 317 million
parameters. Hence, the inference latency of wav2vec 2.0 will be a bottleneck in
production, leading to high costs and a significant environmental footprint. To
improve wav2vec's applicability to a production setting, we explore multiple
model compression methods borrowed from the domain of large language models.
Using a teacher-student approach, we distilled the knowledge from the original
wav2vec 2.0 model into a student model, which is 2 times faster and 4.8 times
smaller than the original model. This increase in performance is accomplished
with only a 7% degradation in word error rate (WER). Our quantized model is 3.6
times smaller than the original model, with only a 0.1% degradation in WER. To
the best of our knowledge, this is the first work that compresses wav2vec 2.0.
- Abstract(参考訳): Wav2vec 2.0は、音声波形を潜在表現にマッピングする音声認識(ASR)のための最先端のエンドツーエンド(E2E)システムである。
wav2vec 2.0の最大のバージョンは、3億1700万のパラメータを含んでいる。
したがって、wav2vec 2.0の推論遅延はプロダクションにおけるボトルネックとなり、高いコストと環境のフットプリントにつながる。
wav2vecのプロダクション環境への適用性を改善するため、大規模言語モデルのドメインから借用した複数のモデル圧縮手法について検討する。
教師と教師のアプローチを用いて,wav2vec 2.0モデルの知識を2倍高速で4.8倍小さい学生モデルに抽出した。
この性能向上は、ワードエラー率(WER)の7%の低下で達成される。
我々の量子化モデルは元のモデルより3.6倍小さく、WERの0.1%しか劣化しない。
私たちの知る限りでは、wav2vec 2.0を圧縮した最初の作品です。
関連論文リスト
- CPT-Boosted Wav2vec2.0: Towards Noise Robust Speech Recognition for Classroom Environments [4.266613351203219]
We study the effective of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain。
この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。
論文 参考訳(メタデータ) (2024-09-13T19:14:18Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。
我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。
317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文 参考訳(メタデータ) (2023-06-09T01:43:41Z) - Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based
on BAVED Dataset [0.0]
本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。
開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。
我々のモデルの実験と性能は、以前の既知の結果を克服する。
論文 参考訳(メタデータ) (2021-10-09T00:58:12Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Wav2vec-C: A Self-supervised Model for Speech Representation Learning [40.47940210640496]
Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた表現学習技術です。
提案する自己教師付きモデルはラベルなしデータ10k時間,ラベル付きデータ1k時間で微調整される。
論文 参考訳(メタデータ) (2021-03-09T16:44:45Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations [51.25118580050847]
音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
論文 参考訳(メタデータ) (2020-06-20T02:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。