論文の概要: Silence is Sweeter Than Speech: Self-Supervised Model Using Silence to
Store Speaker Information
- arxiv url: http://arxiv.org/abs/2205.03759v1
- Date: Sun, 8 May 2022 02:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 16:44:04.584954
- Title: Silence is Sweeter Than Speech: Self-Supervised Model Using Silence to
Store Speaker Information
- Title(参考訳): 沈黙は音声よりも甘い:サイレントを使って話者情報を保存する自己教師付きモデル
- Authors: Chi-Luen Feng, Po-chun Hsu, Hung-yi Lee
- Abstract要約: 自己監視学習(SSL)は最近大きな進歩を遂げています。
SSLモデルは、干渉することなく、様々な情報を隠された表現にどのように保存するかは、まだ理解されていない。
HuBERTは、波形中の沈黙に対応する位置を示す表現に話者情報を格納する。
- 参考スコア(独自算出の注目度): 67.17072528001852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Supervised Learning (SSL) has made great strides recently. SSL speech
models achieve decent performance on a wide range of downstream tasks,
suggesting that they extract different aspects of information from speech.
However, how SSL models store various information in hidden representations
without interfering is still poorly understood. Taking the recently successful
SSL model, HuBERT, as an example, we explore how the SSL model processes and
stores speaker information in the representation. We found that HuBERT stores
speaker information in representations whose positions correspond to silences
in a waveform. There are several pieces of evidence. (1) We find that the
utterances with more silent parts in the waveforms have better Speaker
Identification (SID) accuracy. (2) If we use the whole utterances for SID, the
silence part always contributes more to the SID task. (3) If we only use the
representation of a part of the utterance for SID, the silenced part has higher
accuracy than the other parts. Our findings not only contribute to a better
understanding of SSL models but also improve performance. By simply adding
silence to the original waveform, HuBERT improved its accuracy on SID by nearly
2%.
- Abstract(参考訳): 自己監視学習(SSL)は最近大きな進歩を遂げています。
SSL音声モデルは、幅広いダウンストリームタスクにおいて良好なパフォーマンスを達成し、音声から様々な側面の情報を抽出することを示唆している。
しかし、sslモデルが様々な情報を干渉せずに隠れた表現に保存する方法はまだよく分かっていない。
最近成功したSSLモデルであるHuBERTを例として、SSLモデルがどのように処理し、その表現に話者情報を格納するかを考察する。
ヒューバートは音源中の沈黙に対応する位置の表現に話者情報を格納していることがわかった。
いくつかの証拠があります。
1) 波形のサイレントな部分の発話は話者識別(SID)の精度が向上することがわかった。
2) SID に全発話を使用する場合,沈黙部は常に SID タスクに寄与する。
(3) 発話の一部のみをSIDに用いた場合、サイレント部は他の部分よりも精度が高い。
私たちの発見はSSLモデルの理解を深めるだけでなく、パフォーマンスの向上にも寄与しています。
元の波形にサイレントを加えるだけで、HuBERTはSIDの精度を2%近く改善した。
関連論文リスト
- What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - On the Use of Self-Supervised Speech Representations in Spontaneous
Speech Synthesis [12.53269106994881]
書き起こしのない多種多様な混合品質音声データから学習した自己教師付き学習(SSL)音声表現は、多くの音声技術応用において基礎を成している。
読解音声と自発音声の両方において、SSLは2段階のテキスト音声(TTS)において効果的な中間表現であることを示す。
我々は、自発TLSにおけるSSLの比較範囲を、各SSL内の6つの異なるSSLと3つのレイヤに拡張する。
論文 参考訳(メタデータ) (2023-07-11T09:22:10Z) - SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? [45.901645659694935]
音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-06-14T09:04:29Z) - Losses Can Be Blessings: Routing Self-Supervised Speech Representations
Towards Efficient Multilingual and Multitask Speech Processing [28.567949807340828]
リッチな音声表現のための自己教師型学習は、低リソース自動音声認識(ASR)やその他の音声処理タスクにおいて経験的な成功を収めた。
しかし、高度な音声SSLモデルはますます大きくなり、デバイス上のリソースは限られている。
本研究の目的は,提案したS$3$-フレームワークによる効率向上と過度なオーバーフィッティングの両面において,音声SSLモデルの実用的利用を向上させることである。
論文 参考訳(メタデータ) (2022-11-02T23:47:55Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。