論文の概要: Two-Step Knowledge Distillation for Tiny Speech Enhancement
- arxiv url: http://arxiv.org/abs/2309.08144v1
- Date: Fri, 15 Sep 2023 04:19:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:03:51.518575
- Title: Two-Step Knowledge Distillation for Tiny Speech Enhancement
- Title(参考訳): Tiny音声強調のための二段階知識蒸留
- Authors: Rayan Daod Nathoo, Mikolaj Kegler, Marko Stamenovic
- Abstract要約: 小型音声強調モデル蒸留のための新しい2段階手法を提案する。
加重混合蒸留と教師付き損失の標準的なアプローチとは対照的に,我々は知識蒸留の目的のみを用いて,学生を事前訓練する。
また,学生の運動内グラム行列を教師のものと一致させることを目的とした,詳細な類似性保存KD損失を新たに提案する。
- 参考スコア(独自算出の注目度): 3.6115850941111964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tiny, causal models are crucial for embedded audio machine learning
applications. Model compression can be achieved via distilling knowledge from a
large teacher into a smaller student model. In this work, we propose a novel
two-step approach for tiny speech enhancement model distillation. In contrast
to the standard approach of a weighted mixture of distillation and supervised
losses, we firstly pre-train the student using only the knowledge distillation
(KD) objective, after which we switch to a fully supervised training regime. We
also propose a novel fine-grained similarity-preserving KD loss, which aims to
match the student's intra-activation Gram matrices to that of the teacher. Our
method demonstrates broad improvements, but particularly shines in adverse
conditions including high compression and low signal to noise ratios (SNR),
yielding signal to distortion ratio gains of 0.9 dB and 1.1 dB, respectively,
at -5 dB input SNR and 63x compression compared to baseline.
- Abstract(参考訳): 組み込みオーディオ機械学習アプリケーションでは、小さな因果モデルが不可欠である。
モデル圧縮は、大きな教師からの知識を小さな学生モデルに蒸留することで実現できる。
本研究では,小型音声強調モデル蒸留のための新しい2段階法を提案する。
蒸留の重み付き混合と教師付き損失の標準的なアプローチとは対照的に,我々はまず知識蒸留(KD)目標のみを用いて学生を事前訓練し,その後完全に教師付き訓練体制に切り替える。
また,学生の運動内グラム行列を教師のものと一致させることを目的とした,詳細な類似性保存KD損失を提案する。
提案手法は,高い圧縮率と低信号対雑音比 (SNR) を含む低信号対雑音比 (SNR) , それぞれ0.9dBと1.1dBの歪み比利得を, ベースラインに比べて5dBの入力SNRと63倍の圧縮で達成する。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Knowledge Distillation for Adaptive MRI Prostate Segmentation Based on
Limit-Trained Multi-Teacher Models [4.711401719735324]
圧縮法と加速技術として知識蒸留(KD)が提案されている。
KDは、負担の多いモデルから軽量モデルに知識を移行できる効率的な学習戦略である。
本研究では,KDに基づく前立腺MRIセグメンテーションの深部モデルを構築し,Kellback-Leiblerの発散,Lovasz,Diceの損失と特徴量に基づく蒸留を組み合わせる。
論文 参考訳(メタデータ) (2023-03-16T17:15:08Z) - Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss [32.816725317261934]
本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
論文 参考訳(メタデータ) (2023-03-10T14:46:23Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Aligning Logits Generatively for Principled Black-Box Knowledge Distillation [49.43567344782207]
Black-Box Knowledge Distillation (B2KD)は、クラウドからエッジへのモデル圧縮において、サーバ上にホストされる見えないデータとモデルによって定式化された問題である。
民営化と蒸留による2段階のワークフローを形式化する。
そこで本研究では,ブラックボックスの煩雑なモデルを軽量に蒸留するKD (MEKD) を新たに提案する。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z) - DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings [36.37939188680754]
ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
論文 参考訳(メタデータ) (2021-12-10T16:11:23Z) - Knowledge Distillation as Semiparametric Inference [44.572422527672416]
モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
この2段階の知識蒸留プロセスは、しばしばラベル付きデータで直接学生を訓練するよりも高い精度をもたらす。
対象とする最適学生モデルを用いた半パラメトリック推定問題として知識蒸留を行い,未知ベイズ級確率を迷惑として,教師確率をプラグイン迷惑推定として用いた。
論文 参考訳(メタデータ) (2021-04-20T03:00:45Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Pacemaker: Intermediate Teacher Knowledge Distillation For On-The-Fly
Convolutional Neural Network [8.78292475234588]
飛行中のシステムで畳み込みニューラルネットワークを使用するための中間アンサンブル教師としてのペースメーカー知識蒸留。
提案手法が性能(精度)を大幅に向上することを示す実験を行った。
論文 参考訳(メタデータ) (2020-03-09T06:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。