論文の概要: Ultra Fast Speech Separation Model with Teacher Student Learning
- arxiv url: http://arxiv.org/abs/2204.12777v1
- Date: Wed, 27 Apr 2022 09:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:09:10.184005
- Title: Ultra Fast Speech Separation Model with Teacher Student Learning
- Title(参考訳): 教師学習を用いた超高速音声分離モデル
- Authors: Sanyuan Chen, Yu Wu, Zhuo Chen, Jian Wu, Takuya Yoshioka, Shujie Liu,
Jinyu Li, Xiangzhan Yu
- Abstract要約: 教師の学習(T-S学習)による性能向上と効率向上を目的とした超高速トランスフォーマーモデルの提案
T-S学習法は,スクラッチから学習した小さなトランスフォーマーモデルと比較して,複数チャネルと単一チャネルの音声分離において,単語誤り率(WER)を5%以上削減する。
- 参考スコア(独自算出の注目度): 44.71171732510265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has been successfully applied to speech separation recently with
its strong long-dependency modeling capacity using a self-attention mechanism.
However, Transformer tends to have heavy run-time costs due to the deep encoder
layers, which hinders its deployment on edge devices. A small Transformer model
with fewer encoder layers is preferred for computational efficiency, but it is
prone to performance degradation. In this paper, an ultra fast speech
separation Transformer model is proposed to achieve both better performance and
efficiency with teacher student learning (T-S learning). We introduce
layer-wise T-S learning and objective shifting mechanisms to guide the small
student model to learn intermediate representations from the large teacher
model. Compared with the small Transformer model trained from scratch, the
proposed T-S learning method reduces the word error rate (WER) by more than 5%
for both multi-channel and single-channel speech separation on LibriCSS
dataset. Utilizing more unlabeled speech data, our ultra fast speech separation
models achieve more than 10% relative WER reduction.
- Abstract(参考訳): 近年,自己着脱機構を用いた長依存性モデリング能力の強化により,トランスフォーマは音声分離に成功している。
しかしTransformerは、エッジデバイスへのデプロイを妨げるディープエンコーダ層のために、実行時のコストが重い傾向にある。
エンコーダ層が少ない小さなトランスフォーマーモデルの方が計算効率がよいが、性能劣化の傾向にある。
本稿では,教師の学習(T-S学習)に優れた性能と効率を実現するために,超高速音声分離変換器モデルを提案する。
本研究では,T-S層学習と目標シフト機構を導入し,小学生モデルを指導し,大規模教師モデルから中間表現を学習する。
提案するt-s学習法は,スクラッチから学習した小型トランスモデルと比較して,多チャンネル音声と単一チャンネル音声の分離において,単語誤り率 (wer) を5%以上削減する。
よりラベルなしの音声データを用いて,超高速音声分離モデルにより,10%以上の相対 wer 削減を達成している。
関連論文リスト
- Recycle-and-Distill: Universal Compression Strategy for
Transformer-based Speech SSL Models with Attention Map Reusing and Masking
Distillation [32.97898981684483]
HuBERTのようなトランスフォーマーベースの音声自己教師学習(SSL)モデルは、様々な音声処理タスクにおいて驚くべきパフォーマンスを示す。
音声SSLモデルの膨大なパラメータは、アカデミックや小規模企業で広く使用されるために、よりコンパクトなモデルに圧縮する必要がある。
論文 参考訳(メタデータ) (2023-05-19T14:07:43Z) - Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding [43.68557263195205]
自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
論文 参考訳(メタデータ) (2023-02-27T20:39:54Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-01T02:23:00Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。