論文の概要: Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation
- arxiv url: http://arxiv.org/abs/2204.02470v1
- Date: Tue, 5 Apr 2022 20:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 03:05:34.833625
- Title: Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation
- Title(参考訳): 低リソース音声認識と翻訳のためのスペクトルと自己監督機能の組み合わせ
- Authors: Dan Berrebbi, Jiatong Shi, Brian Yan, Osbel Lopez-Francisco, Jonathan
D. Amith, Shinji Watanabe
- Abstract要約: 自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.857955394020475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Supervised Learning (SSL) models have been successfully applied in
various deep learning-based speech tasks, particularly those with a limited
amount of data. However, the quality of SSL representations depends highly on
the relatedness between the SSL training domain(s) and the target data domain.
On the contrary, spectral feature (SF) extractors such as log Mel-filterbanks
are hand-crafted non-learnable components, and could be more robust to domain
shifts. The present work examines the assumption that combining non-learnable
SF extractors to SSL models is an effective approach to low resource speech
tasks. We propose a learnable and interpretable framework to combine SF and SSL
representations. The proposed framework outperforms significantly both baseline
and SSL models on Automatic Speech Recognition (ASR) and Speech Translation
(ST) tasks on three low resource datasets. We additionally design a mixture of
experts based combination model. This last model reveals that the relative
contribution of SSL models over conventional SF extractors is very small in
case of domain mismatch between SSL training set and the target language data.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは様々なディープラーニングベースの音声タスク、特に限られた量のデータに適用されている。
しかし、SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存する。
反対に、log mel-filterbanksのようなスペクトル特徴(sf)抽出器は手作りの非学習可能なコンポーネントであり、ドメインシフトに対してより堅牢である。
本研究では,非学習可能なSF抽出器をSSLモデルに組み込むことが,低リソース音声タスクに対する効果的なアプローチであることを示す。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
提案フレームワークは,3つの低リソースデータセット上での音声認識(ASR)タスクと音声翻訳(ST)タスクにおいて,ベースラインモデルとSSLモデルの両方を大幅に上回っている。
さらに、専門家ベースのコンビネーションモデルを組み合わせて設計する。
この最終モデルは、SSLトレーニングセットと対象言語データとのドメインミスマッチの場合、従来のSF抽出器に対するSSLモデルの相対的な寄与が非常に小さいことを示している。
関連論文リスト
- SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS [18.701864254184308]
TTSの効果的な中間表現として,自己教師付き学習(SSL)音声の特徴が出現している。
本研究では、単一話者からの音声の書き起こしに基づいて訓練された軽量で効率的なゼロショットTTSフレームワークであるSSL-TTSを紹介する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect [11.013934239276036]
自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、様々な下流タスクにおいて顕著な性能を示した。
本稿では,低音源のチュニジア・アラビア方言の文脈におけるSSLアプローチの有効性を比較することで貢献する。
論文 参考訳(メタデータ) (2024-07-05T14:21:36Z) - Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining [34.64600580301882]
自己回帰型SSLとマスク型SSLの2つの主要な生成型SSLパラダイム間の最初の理論的比較を確立する。
分類タスクでは、マスクされたSSLにおけるターゲットトークンの柔軟性により、よりサンプル間の接続が促進される。
コンテンツ生成タスクでは、テストサンプルの柔軟な長さと未翻訳テキストの固定長との相違が、その生成性能を妨げる。
論文 参考訳(メタデータ) (2024-07-01T03:35:59Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - Reverse Engineering Self-Supervised Learning [17.720366509919167]
自己教師型学習(SSL)は機械学習の強力なツールである。
本稿ではSSL学習表現の詳細な実験的検討を行う。
論文 参考訳(メタデータ) (2023-05-24T23:15:28Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - On Data-Augmentation and Consistency-Based Semi-Supervised Learning [77.57285768500225]
最近提案された整合性に基づく半教師付き学習(SSL)手法は,複数のSSLタスクにおいて最先端技術である。
これらの進歩にもかかわらず、これらの手法の理解はまだ比較的限られている。
論文 参考訳(メタデータ) (2021-01-18T10:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。