論文の概要: LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT
- arxiv url: http://arxiv.org/abs/2203.15610v1
- Date: Tue, 29 Mar 2022 14:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:39:29.485927
- Title: LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT
- Title(参考訳): LightHuBERT: かつてのHidden-Unit BERTによる軽量で構成可能な音声表現学習
- Authors: Rui Wang, Qibing Bai, Junyi Ao, Long Zhou, Zhixiang Xiong, Zhihua Wei,
Yu Zhang, Tom Ko, Haizhou Li
- Abstract要約: 本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 69.77358429702873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised speech representation learning has shown promising results in
various speech processing tasks. However, the pre-trained models, e.g., HuBERT,
are storage-intensive Transformers, limiting their scope of applications under
low-resource settings. To this end, we propose LightHuBERT, a once-for-all
Transformer compression framework, to find the desired architectures
automatically by pruning structured parameters. More precisely, we create a
Transformer-based supernet that is nested with thousands of weight-sharing
subnets and design a two-stage distillation strategy to leverage the
contextualized latent representations from HuBERT. Experiments on automatic
speech recognition (ASR) and the SUPERB benchmark show the proposed LightHuBERT
enables over $10^9$ architectures concerning the embedding dimension, attention
dimension, head number, feed-forward network ratio, and network depth.
LightHuBERT outperforms the original HuBERT on ASR and five SUPERB tasks with
the HuBERT size, achieves comparable performance to the teacher model in most
tasks with a reduction of 29% parameters, and obtains a $3.5\times$ compression
ratio in three SUPERB tasks, e.g., automatic speaker verification, keyword
spotting, and intent classification, with a slight accuracy loss. The code and
pre-trained models are available at
https://github.com/mechanicalsea/lighthubert.
- Abstract(参考訳): 自己教師型音声表現学習は,様々な音声処理タスクにおいて有望な結果を示した。
しかし、HuBERTのような事前訓練されたモデルはストレージ集約トランスフォーマーであり、低リソース環境下でのアプリケーションのスコープを制限する。
この目的のために、構造化されたパラメータを抽出することで、所望のアーキテクチャを自動的に見つけるために、一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
より正確には、何千もの重量共有サブネットでネストされたトランスフォーマーベースのスーパーネットを作成し、HuBERTの文脈化潜在表現を活用するための2段階蒸留戦略を設計する。
自動音声認識(ASR)とSUPERBベンチマークの実験により、提案したLightHuBERTは、埋め込み次元、注目次元、ヘッダー数、フィードフォワードネットワーク比、ネットワーク深さに関する10^9$以上のアーキテクチャを実現する。
LightHuBERT は ASR 上の HuBERT タスクと HuBERT サイズで 5 つの SUPERB タスクを上回り、29% のパラメータで教師モデルに匹敵する性能を達成し、3 つの SUPERB タスク(例えば、自動話者検証、キーワードスポッティング、意図分類)において 3.5\times$ 圧縮比を得る。
コードと事前学習されたモデルはhttps://github.com/mechanicalsea/lighthubert.comで入手できる。
関連論文リスト
- Recycle-and-Distill: Universal Compression Strategy for
Transformer-based Speech SSL Models with Attention Map Reusing and Masking
Distillation [32.97898981684483]
HuBERTのようなトランスフォーマーベースの音声自己教師学習(SSL)モデルは、様々な音声処理タスクにおいて驚くべきパフォーマンスを示す。
音声SSLモデルの膨大なパラメータは、アカデミックや小規模企業で広く使用されるために、よりコンパクトなモデルに圧縮する必要がある。
論文 参考訳(メタデータ) (2023-05-19T14:07:43Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding [43.68557263195205]
自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
論文 参考訳(メタデータ) (2023-02-27T20:39:54Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - schuBERT: Optimizing Elements of BERT [22.463154358632472]
我々は、より軽量なモデルを得るため、BERTのアーキテクチャ選択を再考する。
アルゴリズムによって選択された正しい設計次元を減らし,より効率的な光BERTモデルが得られることを示す。
特に、私たちのschuBERTは、3つのエンコーダ層を持つBERTと比較して、GLUEとSQuADデータセットの平均精度を6.6%以上提供しています。
論文 参考訳(メタデータ) (2020-05-09T21:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。