論文の概要: Sub-Band Knowledge Distillation Framework for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2005.14435v2
- Date: Thu, 29 Oct 2020 12:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:39:01.938663
- Title: Sub-Band Knowledge Distillation Framework for Speech Enhancement
- Title(参考訳): 音声強調のためのサブバンド知識蒸留フレームワーク
- Authors: Xiang Hao, Shixue Wen, Xiangdong Su, Yun Liu, Guanglai Gao and Xiaofei
Li
- Abstract要約: 単チャンネル音声強調のためのサブバンドスペクトルマッピングに基づく知識蒸留フレームワークを提案する。
我々は各サブバンドに対してエリートレベルのサブバンド拡張モデル(教師モデル)を訓練する。
次に、教師モデルの指導の下で、すべてのサブバンドに対して機能する一般的なサブバンド拡張モデル(学生モデル)を訓練する。
- 参考スコア(独自算出の注目度): 20.03746406816514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In single-channel speech enhancement, methods based on full-band spectral
features have been widely studied. However, only a few methods pay attention to
non-full-band spectral features. In this paper, we explore a knowledge
distillation framework based on sub-band spectral mapping for single-channel
speech enhancement. Specifically, we divide the full frequency band into
multiple sub-bands and pre-train an elite-level sub-band enhancement model
(teacher model) for each sub-band. These teacher models are dedicated to
processing their own sub-bands. Next, under the teacher models' guidance, we
train a general sub-band enhancement model (student model) that works for all
sub-bands. Without increasing the number of model parameters and computational
complexity, the student model's performance is further improved. To evaluate
our proposed method, we conducted a large number of experiments on an
open-source data set. The final experimental results show that the guidance
from the elite-level teacher models dramatically improves the student model's
performance, which exceeds the full-band model by employing fewer parameters.
- Abstract(参考訳): 単一チャンネル音声強調では、広帯域スペクトル特徴に基づく手法が広く研究されている。
しかし、非フルバンドスペクトルの特徴に注意を払う方法はわずかである。
本稿では,単チャンネル音声強調のためのサブバンドスペクトルマッピングに基づく知識蒸留フレームワークについて検討する。
具体的には、全周波数帯を複数のサブバンドに分割し、各サブバンドのエリートレベルサブバンド拡張モデル(教師モデル)を事前学習する。
これらの教師モデルは、独自のサブバンドの処理に特化している。
次に,教師モデルの指導のもと,すべてのサブバンドで機能する一般サブバンド拡張モデル(student model)を訓練する。
モデルパラメータの数と計算複雑性を増大させることなく、学生モデルの性能がさらに向上する。
提案手法を評価するため,オープンソースデータセット上で多数の実験を行った。
最終実験の結果,エリートレベルの教師モデルの指導により,生徒モデルの性能が劇的に向上し,パラメータの少ないフルバンドモデルを上回ることがわかった。
関連論文リスト
- Adaptive Group Robust Ensemble Knowledge Distillation [6.4989916051093815]
適応型グループロバスト・アンサンブル知識蒸留(AGRE-KD)を提案する。
本手法は, バイアスモデルから逸脱した傾き方向の教師を重み付けすることで, 最低性能のサブグループを改善するための知識を持つ教師を選択的に選択する。
論文 参考訳(メタデータ) (2024-11-22T14:44:51Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - UNIC: Universal Classification Models via Multi-teacher Distillation [29.299698704883813]
我々は、いくつかの補完的な事前訓練されたモデルから得られるユニークなエンコーダを学ぼうとしている。
このようなエンコーダをマルチティーチンガー蒸留により学習することを提案する。
論文 参考訳(メタデータ) (2024-08-09T14:18:57Z) - DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - Module-wise Adaptive Distillation for Multimodality Foundation Models [125.42414892566843]
マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
論文 参考訳(メタデータ) (2023-10-06T19:24:00Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - Multi-View Attention Transfer for Efficient Speech Enhancement [1.6932706284468382]
特徴量に基づく蒸留であるマルチビューアテンショントランスファー(MV-AT)を提案し、時間領域における効率的な音声強調モデルを得る。
MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。
論文 参考訳(メタデータ) (2022-08-22T14:47:47Z) - Prompt Tuning for Generative Multimodal Pretrained Models [75.44457974275154]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。
実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。
微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文 参考訳(メタデータ) (2022-08-04T08:56:38Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。