論文の概要: STaR: Distilling Speech Temporal Relation for Lightweight Speech
Self-Supervised Learning Models
- arxiv url: http://arxiv.org/abs/2312.09040v1
- Date: Thu, 14 Dec 2023 15:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:28:02.873889
- Title: STaR: Distilling Speech Temporal Relation for Lightweight Speech
Self-Supervised Learning Models
- Title(参考訳): STaR:軽量音声自己監督学習モデルのための音声時間関係の蒸留
- Authors: Kangwook Jang and Sungnyun Kim and Hoirin Kim
- Abstract要約: 音声時間関係(STaR)を蒸留して音声SSLモデルを圧縮することを提案する。
HuBERT BASE から抽出したモデルは SUPERB ベンチマークで 79.8 の総合スコアを達成し,最大2700万のパラメータを持つモデルの中で最高の性能を示した。
- 参考スコア(独自算出の注目度): 11.321245002517689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Albeit great performance of Transformer-based speech selfsupervised learning
(SSL) models, their large parameter size and computational cost make them
unfavorable to utilize. In this study, we propose to compress the speech SSL
models by distilling speech temporal relation (STaR). Unlike previous works
that directly match the representation for each speech frame, STaR distillation
transfers temporal relation between speech frames, which is more suitable for
lightweight student with limited capacity. We explore three STaR distillation
objectives and select the best combination as the final STaR loss. Our model
distilled from HuBERT BASE achieves an overall score of 79.8 on SUPERB
benchmark, the best performance among models with up to 27 million parameters.
We show that our method is applicable across different speech SSL models and
maintains robust performance with further reduced parameters.
- Abstract(参考訳): Transformerベースの音声自己教師学習(SSL)モデルの優れた性能にもかかわらず、その大きなパラメータサイズと計算コストは、それらを利用するのが好ましくない。
本研究では,音声時間関係(STaR)を蒸留して音声SSLモデルを圧縮することを提案する。
従来の音声フレームの表現と直接一致する従来の研究とは異なり、STaR蒸留は音声フレーム間の時間的関係を伝達する。
3つのSTaR蒸留目標を探索し、最終STaR損失として最適な組み合わせを選択する。
HuBERT BASE から抽出したモデルは SUPERB ベンチマークで 79.8 の総合スコアを達成し,最大2700万のパラメータを持つモデルの中で最高の性能を示した。
提案手法は,異なる音声SSLモデルに適用可能であり,より少ないパラメータで頑健な性能を維持できることを示す。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Recycle-and-Distill: Universal Compression Strategy for
Transformer-based Speech SSL Models with Attention Map Reusing and Masking
Distillation [32.97898981684483]
HuBERTのようなトランスフォーマーベースの音声自己教師学習(SSL)モデルは、様々な音声処理タスクにおいて驚くべきパフォーマンスを示す。
音声SSLモデルの膨大なパラメータは、アカデミックや小規模企業で広く使用されるために、よりコンパクトなモデルに圧縮する必要がある。
論文 参考訳(メタデータ) (2023-05-19T14:07:43Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech
Self-Supervised Learning [12.561034842067887]
提案するFitHuBERTは,従来のSSL蒸留法と比較して,ほぼすべてのモデル成分の次元を薄くし,層厚を深くする。
提案手法では,HuBERTと比較して23.8%,推定時間35.9%に縮小した。
また,従来よりも優れているSUPERBベンチマークでは,単語誤り率12.1%,音素誤り率13.3%を達成している。
論文 参考訳(メタデータ) (2022-07-01T17:11:23Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。