論文の概要: Bayesian Subspace HMM for the Zerospeech 2020 Challenge
- arxiv url: http://arxiv.org/abs/2005.09282v2
- Date: Mon, 27 Jul 2020 12:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 12:54:10.900573
- Title: Bayesian Subspace HMM for the Zerospeech 2020 Challenge
- Title(参考訳): zerospeech 2020チャレンジのためのベイジアン部分空間hmm
- Authors: Bolaji Yusuf and Lucas Ondel
- Abstract要約: 我々はZerospeech 2020チャレンジへの応募について述べ、参加者は未発表のスピーチから潜在表現を発見する必要がある。
本システムでは,単位探索にベイズ部分空間隠れマルコフモデル(SHMM)を用いる。
本システムは,人間評価文字誤り率の基準値と比較し,低い単位数を維持しながら良好に比較する。
- 参考スコア(独自算出の注目度): 11.699748386079854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we describe our submission to the Zerospeech 2020 challenge,
where the participants are required to discover latent representations from
unannotated speech, and to use those representations to perform speech
synthesis, with synthesis quality used as a proxy metric for the unit quality.
In our system, we use the Bayesian Subspace Hidden Markov Model (SHMM) for unit
discovery. The SHMM models each unit as an HMM whose parameters are constrained
to lie in a low dimensional subspace of the total parameter space which is
trained to model phonetic variability. Our system compares favorably with the
baseline on the human-evaluated character error rate while maintaining
significantly lower unit bitrate.
- Abstract(参考訳): 本稿では,Zerospeech 2020 チャレンジへの提案について述べる。参加者は未発表の音声から潜在表現を発見し,それらの表現を用いて音声合成を行い,合成品質を単位品質のプロキシ指標として利用する。
本システムでは,ベイズ部分空間隠れマルコフモデル(shmm)を用いて単位発見を行う。
shmmは各単位をhmmとしてモデル化し、そのパラメータは全パラメータ空間の低次元部分空間に制約され、音韻変動のモデル化を訓練される。
本システムは,人間評価文字誤り率の基準線と比較し,単位ビットレートを著しく低く維持する。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Multi-Head State Space Model for Speech Recognition [44.04124537862432]
状態空間モデル(SSM)は、最近、小規模シーケンスおよび言語モデリングタスクにおいて有望な結果を示した。
本稿では,特殊なゲーティング機構を備えたマルチヘッド状態空間(MH-SSM)アーキテクチャを提案する。
変圧器エンコーダにおけるマルチヘッドアテンションの代替として、この新モデルは、LibriSpeech音声認識コーパスにおいてトランスデューサを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-21T16:28:57Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling [13.956691231452336]
FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。
FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。
我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
論文 参考訳(メタデータ) (2022-02-07T22:09:54Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - A Spherical Hidden Markov Model for Semantics-Rich Human Mobility
Modeling [33.052757487962275]
セマンティックトレースデータから人間のモビリティをモデル化する問題について検討する。
トレース内の各GPSレコードは、ユーザのアクティビティを記述するテキストメッセージに関連付けられている。
本稿では,マルチモーダルな球面隠れマルコフモデルであるSHMMを提案する。
論文 参考訳(メタデータ) (2020-10-05T13:18:38Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。