論文の概要: Ensemble knowledge distillation of self-supervised speech models
- arxiv url: http://arxiv.org/abs/2302.12757v1
- Date: Fri, 24 Feb 2023 17:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:51:50.428083
- Title: Ensemble knowledge distillation of self-supervised speech models
- Title(参考訳): 自己教師付き音声モデルのアンサンブル知識蒸留
- Authors: Kuan-Po Huang, Tzu-hsun Feng, Yu-Kuan Fu, Tsu-Yuan Hsu, Po-Chieh Yen,
Wei-Cheng Tseng, Kai-Wei Chang, Hung-yi Lee
- Abstract要約: 蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
- 参考スコア(独自算出の注目度): 84.69577440755457
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Distilled self-supervised models have shown competitive performance and
efficiency in recent years. However, there is a lack of experience in jointly
distilling multiple self-supervised speech models. In our work, we performed
Ensemble Knowledge Distillation (EKD) on various self-supervised speech models
such as HuBERT, RobustHuBERT, and WavLM. We tried two different aggregation
techniques, layerwise-average and layerwise-concatenation, to the
representations of different teacher models and found that the former was more
effective. On top of that, we proposed a multiple prediction head method for
student models to predict different layer outputs of multiple teacher models
simultaneously. The experimental results show that our method improves the
performance of the distilled models on four downstream speech processing tasks,
Phoneme Recognition, Speaker Identification, Emotion Recognition, and Automatic
Speech Recognition in the hidden-set track of the SUPERB benchmark.
- Abstract(参考訳): 近年,蒸留自己監督モデルが競争性と効率性を示している。
しかし,複数の自己教師型音声モデルを共同蒸留する経験は乏しい。
本研究では,HuBERT,RobustHuBERT,WavLMなどの自己教師型音声モデルを用いて,EKD(Ensemble Knowledge Distillation)を行った。
我々は,教師モデルの表現に対して,階層平均と階層平均の2つの異なる集約手法を試みた。
その上で,複数の教師モデルの異なる層出力を同時に予測する,生徒モデルに対する多重予測ヘッド法を提案する。
実験の結果,SUPERBベンチマークの隠れたトラックにおいて,音素認識,話者識別,感情認識,自動音声認識の4つの下流音声処理タスクにおける蒸留モデルの性能が向上することが示された。
関連論文リスト
- Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - DinoSR: Self-Distillation and Online Clustering for Self-supervised
Speech Representation Learning [140.96990096377127]
自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを導入する。
DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した携帯電話の在庫を出力し、最後に、識別トークンを使用して学生ネットワークを誘導する。
本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-05-17T07:23:46Z) - Multi-Mode Online Knowledge Distillation for Self-Supervised Visual
Representation Learning [13.057037169495594]
自己教師付き視覚表現学習を促進するための多モードオンライン知識蒸留法(MOKD)を提案する。
MOKDでは、2つの異なるモデルが自己監督的な方法で協調的に学習する。
さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-04-13T12:55:53Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Self-paced ensemble learning for speech and audio classification [19.39192082485334]
モデルが複数回のイテレーションで互いに学習する自己ペースのアンサンブル学習方式を提案する。
セルフペースの学習プロセスの間、私たちのアンサンブルはターゲットドメインに関する知識も得ます。
実験結果はSPELがベースラインアンサンブルモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-03-22T16:34:06Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。