論文の概要: Self-Supervised Learning for speech recognition with Intermediate layer
supervision
- arxiv url: http://arxiv.org/abs/2112.08778v1
- Date: Thu, 16 Dec 2021 10:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:46:35.163668
- Title: Self-Supervised Learning for speech recognition with Intermediate layer
supervision
- Title(参考訳): 中間層監視による音声認識のための自己教師付き学習
- Authors: Chengyi Wang, Yu Wu, Sanyuan Chen, Shujie Liu, Jinyu Li, Yao Qian and
Zhenglu Yang
- Abstract要約: 自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 52.93758711230248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pioneer work finds that speech pre-trained models can solve
full-stack speech processing tasks, because the model utilizes bottom layers to
learn speaker-related information and top layers to encode content-related
information. Since the network capacity is limited, we believe the speech
recognition performance could be further improved if the model is dedicated to
audio content information learning. To this end, we propose Intermediate Layer
Supervision for Self-Supervised Learning (ILS-SSL), which forces the model to
concentrate on content information as much as possible by adding an additional
SSL loss on the intermediate layers. Experiments on LibriSpeech test-other set
show that our method outperforms HuBERT significantly, which achieves a
23.5%/11.6% relative word error rate reduction in the w/o language model
setting for base/large models. Detailed analysis shows the bottom layers of our
model have a better correlation with phonetic units, which is consistent with
our intuition and explains the success of our method for ASR.
- Abstract(参考訳): 近年,話者関連情報と上位層を学習し,コンテンツ関連情報をエンコードする手法としてボトム層を利用するため,事前学習した音声モデルによる音声処理課題の解法が提案されている。
ネットワーク容量は限られているため,モデルが音声コンテンツ情報学習に特化すれば,音声認識性能はさらに向上すると考えられる。
そこで本研究では,中間層にssl損失を付加することにより,モデルを可能な限りコンテンツ情報に集中させる自己教師付き学習(ils-ssl)のための中間層監視を提案する。
LibriSpeech の他のテストセットの実験から,提案手法は HuBERT よりも優れており,基本/大規模モデルのw/o言語モデル設定において,単語誤り率を 23.5%/11.6% 削減できることがわかった。
詳細な分析によって,モデルの下位層が音素単位とよりよく相関していることが分かり,我々の直観と一致し,asr法の成功を説明している。
関連論文リスト
- Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。