論文の概要: The Ability of Self-Supervised Speech Models for Audio Representations
- arxiv url: http://arxiv.org/abs/2209.12900v1
- Date: Mon, 26 Sep 2022 15:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 14:51:17.841984
- Title: The Ability of Self-Supervised Speech Models for Audio Representations
- Title(参考訳): 音声表現のための自己教師あり音声モデルの能力
- Authors: Tung-Yu Wu, Chen-An Li, Tzu-Han Lin, Tsu-Yuan Hsu, Hung-Yi Lee
- Abstract要約: 自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
- 参考スコア(独自算出の注目度): 53.19715501273934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) speech models have achieved unprecedented
success in speech representation learning, but some questions regarding their
representation ability remain unanswered. This paper addresses two of them: (1)
Can SSL speech models deal with non-speech audio?; (2) Would different SSL
speech models have insights into diverse aspects of audio features? To answer
the two questions, we conduct extensive experiments on abundant speech and
non-speech audio datasets to evaluate the representation ability of currently
state-of-the-art SSL speech models, which are wav2vec 2.0 and HuBERT in this
paper. These experiments are carried out during NeurIPS 2021 HEAR Challenge as
a standard evaluation pipeline provided by competition officials. Results show
that (1) SSL speech models could extract meaningful features of a wide range of
non-speech audio, while they may also fail on certain types of datasets; (2)
different SSL speech models have insights into different aspects of audio
features. The two conclusions provide a foundation for the ensemble of
representation models. We further propose an ensemble framework to fuse speech
representation models' embeddings. Our framework outperforms state-of-the-art
SSL speech/audio models and has generally superior performance on abundant
datasets compared with other teams in HEAR Challenge. Our code is available at
https://github.com/tony10101105/HEAR-2021-NeurIPS-Challenge -- NTU-GURA.
- Abstract(参考訳): 自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めている。
1)ssl音声モデルは非音声を扱うことができるか?
異なるssl音声モデルは、オーディオ機能の様々な側面についての洞察を持つだろうか?
本稿では,現在最先端のSSL音声モデルであるwav2vec 2.0とHuBERTの表現能力を評価するために,豊富な音声および非音声音声データセットに関する広範な実験を行った。
これらの実験は、競争役が提供した標準的な評価パイプラインとして、NeurIPS 2021 HEAR Challengeで実施されている。
以上の結果から,(1) SSL音声モデルは,特定の種類のデータセットでフェールする一方で,幅広い非音声音声の特徴を抽出することができること,(2) 異なるSSL音声モデルが音声特徴の異なる側面についての洞察を得られること,などが示唆された。
2つの結論は、表現モデルのアンサンブルの基礎を提供する。
さらに,音声表現モデルの埋め込みを融合するアンサンブルフレームワークを提案する。
我々のフレームワークは最先端のSSL音声/オーディオモデルより優れており、HEAR Challengeの他のチームと比較すると、豊富なデータセットで一般的に優れている。
私たちのコードはhttps://github.com/tony10101105/HEAR-2021-NeurIPS-Challenge -- NTU-GURAで公開されています。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? [45.901645659694935]
音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-06-14T09:04:29Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。