論文の概要: SKILL: Similarity-aware Knowledge distILLation for Speech
Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2402.16830v1
- Date: Mon, 26 Feb 2024 18:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:32:10.417253
- Title: SKILL: Similarity-aware Knowledge distILLation for Speech
Self-Supervised Learning
- Title(参考訳): SKILL: 自己指導型音声学習のための類似性認識型知識分散
- Authors: Luca Zampierin, Ghouthi Boukli Hacene, Bac Nguyen, Mirco Ravanelli
- Abstract要約: 本稿では,教師ネットワーク内の個々の層を任意に蒸留するのではなく,層群間で蒸留を行う新しい手法であるSKILLを紹介する。
DPHuBERT に勝るだけでなく,30M のパラメーターモデルで最先端の結果が得られることを,我々の蒸留版 WavLM Base+ が実証した。
- 参考スコア(独自算出の注目度): 14.480769476843886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has achieved remarkable success across various
speech-processing tasks. To enhance its efficiency, previous works often
leverage the use of compression techniques. A notable recent attempt is
DPHuBERT, which applies joint knowledge distillation (KD) and structured
pruning to learn a significantly smaller SSL model. In this paper, we
contribute to this research domain by introducing SKILL, a novel method that
conducts distillation across groups of layers instead of distilling individual
arbitrarily selected layers within the teacher network. The identification of
the layers to distill is achieved through a hierarchical clustering procedure
applied to layer similarity measures. Extensive experiments demonstrate that
our distilled version of WavLM Base+ not only outperforms DPHuBERT but also
achieves state-of-the-art results in the 30M parameters model class across
several SUPERB tasks.
- Abstract(参考訳): 自己教師付き学習(SSL)は様々な音声処理タスクで顕著に成功している。
効率を高めるために、以前の作品はしばしば圧縮技術を利用している。
注目すべき最近の試みはDPHuBERTで、より小さなSSLモデルを学ぶために共同知識蒸留(KD)と構造化プルーニングを適用している。
本稿では,教師ネットワーク内の個々の層を任意に蒸留する代わりに,層群間で蒸留を行う新しい手法であるSKILLを導入することにより,本研究領域に寄与する。
蒸留する層を同定するには, 層類似度測定に適用した階層的クラスタリング法を用いる。
拡張実験により, 蒸留したWavLM Base+はDPHuBERTより優れるだけでなく, 複数のSUPERBタスクにまたがる30Mパラメーターモデルクラスにおいて, 最先端の結果が得られることが示された。
関連論文リスト
- CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination [28.061239778773423]
CLIP(Contrastive Language- Image Pre-Training)は、幅広いタスクにおいて優れたパフォーマンスを実現している。
CLIPは事前学習データのかなりのコーパスに大きく依存しており、計算資源を消費している。
CLIP-CID(CLIP-CID)は,大規模視覚言語基礎モデルからより小さなモデルへ知識を効果的に伝達する蒸留機構である。
論文 参考訳(メタデータ) (2024-08-18T11:23:21Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Structural Knowledge Distillation for Object Detection [2.690687471762886]
構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。
本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。
論文 参考訳(メタデータ) (2022-11-23T17:06:52Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Improving Task-Agnostic BERT Distillation with Layer Mapping Search [43.7650740369353]
BERTモデルでは,階層レベルの監視が重要となることを示す。
本稿では,遺伝的アルゴリズム(GA)を用いて,最適な層マッピングを自動的に探索することを提案する。
最適層マッピングを得た後,全コーパス上でタスク非依存のBERT蒸留を行い,コンパクトな学生モデルを構築する。
論文 参考訳(メタデータ) (2020-12-11T06:29:58Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。