論文の概要: DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech
Models
- arxiv url: http://arxiv.org/abs/2305.17651v1
- Date: Sun, 28 May 2023 07:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:38:14.858139
- Title: DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech
Models
- Title(参考訳): DPHuBERT:自己監督音声モデルの連成蒸留とプルーニング
- Authors: Yifan Peng, Yui Sudo, Shakeel Muhammad, Shinji Watanabe
- Abstract要約: 自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。
本稿では,共同蒸留とプルーニングに基づく音声SSLのタスク非依存圧縮手法であるDPHuBERTを提案する。
- 参考スコア(独自算出の注目度): 34.464301065191336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has achieved notable success in many speech
processing tasks, but the large model size and heavy computational cost hinder
the deployment. Knowledge distillation trains a small student model to mimic
the behavior of a large teacher model. However, the student architecture
usually needs to be manually designed and will remain fixed during training,
which requires prior knowledge and can lead to suboptimal performance. Inspired
by recent success of task-specific structured pruning, we propose DPHuBERT, a
novel task-agnostic compression method for speech SSL based on joint
distillation and pruning. Experiments on SUPERB show that DPHuBERT outperforms
pure distillation methods in almost all tasks. Moreover, DPHuBERT requires
little training time and performs well with limited training data, making it
suitable for resource-constrained applications. Our method can also be applied
to various speech SSL models. Our code and models will be publicly available.
- Abstract(参考訳): 自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。
知識蒸留は、小さな生徒モデルを訓練し、大きな教師モデルの振る舞いを模倣する。
しかしながら、学生アーキテクチャは通常、手動で設計され、トレーニング中に修正される必要がある。
近年のタスク特化構造プルーニングの成功に触発されて,ジョイント蒸留とプルーニングに基づく音声sslのためのタスク非依存圧縮法であるdphubertを提案する。
SUPERBの実験では、DPHuBERTはほとんど全てのタスクにおいて純粋な蒸留法よりも優れていた。
さらに、DPHuBERTはトレーニング時間が少なく、限られたトレーニングデータでうまく動作し、リソース制約のあるアプリケーションに適している。
本手法は各種音声SSLモデルにも適用可能である。
私たちのコードとモデルは公開されます。
関連論文リスト
- SKILL: Similarity-aware Knowledge distILLation for Speech
Self-Supervised Learning [14.480769476843886]
本稿では,教師ネットワーク内の個々の層を任意に蒸留するのではなく,層群間で蒸留を行う新しい手法であるSKILLを紹介する。
DPHuBERT に勝るだけでなく,30M のパラメーターモデルで最先端の結果が得られることを,我々の蒸留版 WavLM Base+ が実証した。
論文 参考訳(メタデータ) (2024-02-26T18:56:42Z) - Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with
Academic Compute [40.6786244647298]
自己教師付き学習(SSL)は、音声処理において大きな進歩をもたらした。
しかし、これらのモデルをトレーニングするために必要なリソースは、違法に大きくなる。
本研究では,HuBERT SSLを学術的制約に適合するように最適化する。
論文 参考訳(メタデータ) (2023-06-11T12:53:46Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。