論文の概要: On-demand compute reduction with stochastic wav2vec 2.0
- arxiv url: http://arxiv.org/abs/2204.11934v1
- Date: Mon, 25 Apr 2022 19:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 03:10:39.772600
- Title: On-demand compute reduction with stochastic wav2vec 2.0
- Title(参考訳): 確率wav2vec 2.0によるオンデマンド計算量削減
- Authors: Apoorv Vyas, Wei-Ning Hsu, Michael Auli, Alexei Baevski
- Abstract要約: 本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
- 参考スコア(独自算出の注目度): 63.22845151306881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Squeeze and Efficient Wav2vec (SEW) is a recently proposed architecture that
squeezes the input to the transformer encoder for compute efficient
pre-training and inference with wav2vec 2.0 (W2V2) models. In this work, we
propose stochastic compression for on-demand compute reduction for W2V2 models.
As opposed to using a fixed squeeze factor, we sample it uniformly during
training. We further introduce query and key-value pooling mechanisms that can
be applied to each transformer layer for further compression. Our results for
models pre-trained on 960h Librispeech dataset and fine-tuned on 10h of
transcribed data show that using the same stochastic model, we get a smooth
trade-off between word error rate (WER) and inference time with only marginal
WER degradation compared to the W2V2 and SEW models trained for a specific
setting. We further show that we can fine-tune the same stochastically
pre-trained model to a specific configuration to recover the WER difference
resulting in significant computational savings on pre-training models from
scratch.
- Abstract(参考訳): Squeeze and Efficient Wav2vec (SEW)は、最近提案されたアーキテクチャで、トランスフォーマーエンコーダへの入力を圧縮し、wav2vec 2.0 (W2V2)モデルによる効率的な事前学習と推論を行う。
本稿では,W2V2モデルのオンデマンド計算量削減のための確率圧縮を提案する。
固定シャープファクタの使用とは対照的に,トレーニング中に一様にサンプリングする。
さらに、各トランス層に適用可能なクエリおよびキー値プーリング機構を導入し、さらなる圧縮を行う。
960h librispeechデータセットで事前学習し、10hの書き起こしデータを微調整した結果、同じ確率モデルを用いて、特定の設定のために訓練されたw2v2とsewモデルと比較して、単語誤り率(wer)と予測時間とのスムーズなトレードオフが得られた。
さらに,同じ確率的に事前学習されたモデルを特定の構成に微調整することで,事前学習モデルの計算量を大幅に削減できることを示した。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Task-Agnostic Structured Pruning of Speech Representation Models [18.555223754089905]
性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。
SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-06-02T09:11:06Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Wav2vec-C: A Self-supervised Model for Speech Representation Learning [40.47940210640496]
Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた表現学習技術です。
提案する自己教師付きモデルはラベルなしデータ10k時間,ラベル付きデータ1k時間で微調整される。
論文 参考訳(メタデータ) (2021-03-09T16:44:45Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。