論文の概要: DiceHuBERT: Distilling HuBERT with a Self-Supervised Learning Objective
- arxiv url: http://arxiv.org/abs/2507.02911v1
- Date: Wed, 25 Jun 2025 00:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.509329
- Title: DiceHuBERT: Distilling HuBERT with a Self-Supervised Learning Objective
- Title(参考訳): DiceHuBERT: HuBERTを自己監督型学習目的物で蒸留する
- Authors: Hyung Gun Chi, Zakaria Aldeneh, Tatiana Likhomanenko, Oggi Rudovic, Takuya Higuchi, Li-Wei Chen, Shinji Watanabe, Ahmed Hussen Abdelaziz,
- Abstract要約: DiceHuBERTは、広く使われている自己教師付き学習(SSL)ベースの音声基礎モデルであるHuBERTを圧縮するフレームワークである。
DiceHuBERTは既存の蒸留法を一貫して上回り、音素認識性能は21%以上、ASR性能は14%以上向上した。
- 参考スコア(独自算出の注目度): 41.86025413587268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DiceHuBERT, a knowledge distillation framework for compressing HuBERT, a widely used self-supervised learning (SSL)-based speech foundation model. Unlike existing distillation methods that rely on layer-wise and feature-wise mapping between teacher and student models, DiceHuBERT leverages HuBERT's iterative self-distillation mechanism by directly replacing the original model with a student model. This replacement allows the student to be trained using the same SSL objective used when pre-training HuBERT, eliminating the need for additional modules or architectural constraints. Experimental results on SUPERB show that DiceHuBERT consistently outperforms existing distillation methods, improving phoneme recognition performance by over 21% and ASR performance by more than 14%. Furthermore, DiceHuBERT demonstrates competitive performance across multiple tasks, highlighting its clear advantage.
- Abstract(参考訳): 本稿では,HuBERTを圧縮するための知識蒸留フレームワークであるDiceHuBERTを紹介する。
教師と生徒のモデルを階層的に特徴的にマッピングする既存の蒸留法とは異なり、DiceHuBERTはオリジナルのモデルを学生モデルに置き換えることで、ヒューバートの反復的な自己蒸留機構を利用する。
この代替により、学生は、HuBERTの事前トレーニングで使用される同じSSLの目的を使ってトレーニングできるようになり、追加モジュールやアーキテクチャ上の制約が不要になる。
SUPERB実験の結果,DiceHuBERTは既存の蒸留法より一貫して優れ,音素認識性能は21%以上,ASR性能は14%以上向上した。
さらに、DiceHuBERTは複数のタスク間での競合性能を示し、その明確な優位性を強調している。
関連論文リスト
- MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations [43.479279052047985]
MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
論文 参考訳(メタデータ) (2024-06-09T06:30:28Z) - SKILL: Similarity-aware Knowledge distILLation for Speech
Self-Supervised Learning [14.480769476843886]
本稿では,教師ネットワーク内の個々の層を任意に蒸留するのではなく,層群間で蒸留を行う新しい手法であるSKILLを紹介する。
DPHuBERT に勝るだけでなく,30M のパラメーターモデルで最先端の結果が得られることを,我々の蒸留版 WavLM Base+ が実証した。
論文 参考訳(メタデータ) (2024-02-26T18:56:42Z) - Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation [19.859676581473774]
本稿では,HuBERTの蒸留作業に知識蒸留の本来の方法を適用することができることを示す。
我々は,HumberTのトランスフォーマー層をLSTMに基づく蒸留モデルに蒸留し,DistilHuBERT以下でもパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2023-09-18T16:34:40Z) - DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech
Models [34.464301065191336]
自己教師付き学習(SSL)は多くの音声処理タスクで顕著な成功を収めてきたが、大きなモデルサイズと計算コストが配置を妨げている。
本稿では,共同蒸留とプルーニングに基づく音声SSLのタスク非依存圧縮手法であるDPHuBERTを提案する。
論文 参考訳(メタデータ) (2023-05-28T07:09:33Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - MelHuBERT: A simplified HuBERT on Mel spectrograms [55.608981341747246]
我々は、高度に成功した自己教師型モデルである HuBERT のトレーニングを再考する。
我々は、損失関数、入力表現、複数の段階におけるトレーニングなど、いくつかの重要なコンポーネントを改善し、単純化する。
我々のモデルであるMelHuBERTは、音声認識、話者識別、自動音声認識において良好な性能を達成することができる。
論文 参考訳(メタデータ) (2022-11-17T23:38:29Z) - DistilHuBERT: Speech Representation Learning by Layer-wise Distillation
of Hidden-unit BERT [69.26447267827454]
wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを利用する。
本稿では,HuBERTモデルから直接隠れ表現を抽出する新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。
論文 参考訳(メタデータ) (2021-10-05T09:34:44Z) - Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers [52.85472936277762]
我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2020-10-22T02:26:01Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。