論文の概要: Unsupervised Learning of Disentangled Speech Content and Style
Representation
- arxiv url: http://arxiv.org/abs/2010.12973v2
- Date: Sun, 20 Jun 2021 04:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:29:54.110443
- Title: Unsupervised Learning of Disentangled Speech Content and Style
Representation
- Title(参考訳): 不連続音声コンテンツとスタイル表現の教師なし学習
- Authors: Andros Tjandra, Ruoming Pang, Yu Zhang, Shigeki Karita
- Abstract要約: 本稿では,内容やスタイルを異にする音声表現の教師なし学習手法を提案する。
本モデルは,(1)フレーム単位の情報をキャプチャするローカルエンコーダ,(2)発話単位の情報をキャプチャするグローバルエンコーダ,(3)局所およびグローバル潜在変数を再構成する条件付きデコーダから構成される。
- 参考スコア(独自算出の注目度): 28.874492958635038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach for unsupervised learning of speech representation
disentangling contents and styles. Our model consists of: (1) a local encoder
that captures per-frame information; (2) a global encoder that captures
per-utterance information; and (3) a conditional decoder that reconstructs
speech given local and global latent variables. Our experiments show that (1)
the local latent variables encode speech contents, as reconstructed speech can
be recognized by ASR with low word error rates (WER), even with a different
global encoding; (2) the global latent variables encode speaker style, as
reconstructed speech shares speaker identity with the source utterance of the
global encoding. Additionally, we demonstrate an useful application from our
pre-trained model, where we can train a speaker recognition model from the
global latent variables and achieve high accuracy by fine-tuning with as few
data as one label per speaker.
- Abstract(参考訳): 本稿では,音声表現の教師なし学習へのアプローチについて述べる。
本モデルは,(1)フレーム単位の情報を取り込むローカルエンコーダ,(2)発話単位の情報を取り込むグローバルエンコーダ,(3)ローカル変数とグローバル潜在変数を与えられた音声を再構成する条件付きデコーダからなる。
本実験では,(1)局所的潜在変数が音声コンテンツを符号化し,(2)低単語誤り率 (wer) のasrによって認識可能であること,(2)大域的潜在変数が話者スタイルを符号化すること,(2)大域的符号化の音源発話による話者同一性を示すこと,などが示されている。
さらに,事前学習したモデルから,グローバルな潜在変数から話者認識モデルを訓練し,話者毎のラベルとして少ないデータで微調整することで,高精度な話者認識を実現できることを示す。
関連論文リスト
- Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - GRET: Global Representation Enhanced Transformer [85.58930151690336]
Transformerは、エンコーダ-デコーダフレームワークに基づいて、いくつかの自然言語生成タスクで最先端のパフォーマンスを達成した。
本稿では,トランスフォーマネットワークにおけるグローバル表現を明示的にモデル化するための,新しいグローバル表現拡張トランスフォーマ(GRET)を提案する。
論文 参考訳(メタデータ) (2020-02-24T07:37:17Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。