論文の概要: Improving generalizability of distilled self-supervised speech
processing models under distorted settings
- arxiv url: http://arxiv.org/abs/2210.07978v1
- Date: Fri, 14 Oct 2022 17:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:47:28.288795
- Title: Improving generalizability of distilled self-supervised speech
processing models under distorted settings
- Title(参考訳): 歪み条件下での蒸留音声処理モデルの一般化性向上
- Authors: Kuan-Po Huang, Yu-Kuan Fu, Tsu-Yuan Hsu, Fabian Ritter Gutierrez,
Fan-Lin Wang, Liang-Hsuan Tseng, Yu Zhang, Hung-yi Lee
- Abstract要約: 自己教師付き学習(SSL)音声事前訓練モデルは、様々な音声処理タスクでよく機能する。
本稿では,知識蒸留中のSSLモデルに対して,クロス歪みマッピングとドメイン適応トレーニングを適用することを提案する。
- 参考スコア(独自算出の注目度): 46.503354111827356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learned (SSL) speech pre-trained models perform well across
various speech processing tasks. Distilled versions of SSL models have been
developed to match the needs of on-device speech applications. Though having
similar performance as original SSL models, distilled counterparts suffer from
performance degradation even more than their original versions in distorted
environments. This paper proposes to apply Cross-Distortion Mapping and Domain
Adversarial Training to SSL models during knowledge distillation to alleviate
the performance gap caused by the domain mismatch problem. Results show
consistent performance improvements under both in- and out-of-domain distorted
setups for different downstream tasks while keeping efficient model size.
- Abstract(参考訳): 自己教師付き学習(SSL)音声事前訓練モデルは、様々な音声処理タスクでよく機能する。
SSLモデルの拡張バージョンは、デバイス上の音声アプリケーションのニーズに合わせて開発されている。
オリジナルのSSLモデルと同等のパフォーマンスを持つが、蒸留されたバージョンは歪んだ環境でのオリジナルのバージョンよりもパフォーマンスが劣化する。
本稿では,知識蒸留におけるSSLモデルに対するクロス・ディストーションマッピングとドメイン適応トレーニングを適用し,ドメインミスマッチ問題によるパフォーマンスギャップを軽減することを提案する。
その結果、モデルサイズを効率よく保ちながら、異なるダウンストリームタスクに対するドメイン内および外部の両方の歪んだ設定において、一貫したパフォーマンス改善を示す。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。