論文の概要: Benchmarking Generative Latent Variable Models for Speech
- arxiv url: http://arxiv.org/abs/2202.12707v1
- Date: Tue, 22 Feb 2022 14:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 12:32:27.083336
- Title: Benchmarking Generative Latent Variable Models for Speech
- Title(参考訳): 音声生成潜在変数モデルのベンチマーク
- Authors: Jakob D. Havtorn, Lasse Borgholt, S{\o}ren Hauberg, Jes Frellsen, Lars
Maal{\o}e
- Abstract要約: 一般的な時相LVMの音声ベンチマークを開発し、それらを最先端の決定論的モデルと比較する。
我々は,映像生成のための最先端の時間LVMであるClockwork VAEを音声領域に適用する。
- 参考スコア(独自算出の注目度): 9.35923674379954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic latent variable models (LVMs) achieve state-of-the-art performance
on natural image generation but are still inferior to deterministic models on
speech. In this paper, we develop a speech benchmark of popular temporal LVMs
and compare them against state-of-the-art deterministic models. We report the
likelihood, which is a much used metric in the image domain, but rarely, and
often incomparably, reported for speech models. To assess the quality of the
learned representations, we also compare their usefulness for phoneme
recognition. Finally, we adapt the Clockwork VAE, a state-of-the-art temporal
LVM for video generation, to the speech domain. Despite being autoregressive
only in latent space, we find that the Clockwork VAE can outperform previous
LVMs and reduce the gap to deterministic models by using a hierarchy of latent
variables.
- Abstract(参考訳): 確率的潜在変数モデル(lvms)は自然画像生成において最先端のパフォーマンスを実現するが、音声における決定論的モデルよりも劣っている。
本稿では,一般的な時相LVMの音声ベンチマークを開発し,それを最先端の決定論的モデルと比較する。
画像領域でよく使われる指標であるが、音声モデルで報告されることは稀であり、しばしば非比較的に報告される。
学習表現の質を評価するために,音素認識におけるその有用性を比較する。
最後に,映像生成のための最先端の時間LVMであるClockwork VAEを音声領域に適用する。
潜在空間においてのみ自己回帰的であるにもかかわらず、クロックワークVAEは従来のLVMよりも優れ、潜在変数の階層を用いて決定論的モデルとのギャップを小さくすることができる。
関連論文リスト
- Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - Quantifying the Role of Textual Predictability in Automatic Speech Recognition [13.306122574236232]
音声認識研究における長年の疑問は、エラーを音響をモデル化するモデルの能力にどのように属性付けるかである。
テキストの相対的予測可能性の関数として誤り率をモデル化する新しい手法を検証する。
本稿では,ASRの診断と改善において,このアプローチがいかに簡単に利用できるかを示す。
論文 参考訳(メタデータ) (2024-07-23T14:47:25Z) - Predicting phoneme-level prosody latents using AR and flow-based Prior
Networks for expressive speech synthesis [3.6159128762538018]
フローに基づく事前ネットワークの正規化は,品質の低下を犠牲にして,より表現力の高い音声が得られることを示す。
また,フローベースモデルと比較して表現性や変動性は低いものの,高品質な音声を生成できる動的VAEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T17:45:01Z) - Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis
of Head and Prompt Tuning [66.44344616836158]
本稿では,事前学習タスクと下流タスクをテキストの潜在変数生成モデルに関連付ける分析フレームワークを提案する。
HMMの特定の非退化条件下では、単純な分類ヘッドがダウンストリームタスクを解くことができ、また、迅速なチューニングにより、より弱い非退化条件で下流の保証を得ることができ、さらに、メモリ拡張HMMの回復保証がバニラHMMよりも強いことを示す。
論文 参考訳(メタデータ) (2021-06-17T03:31:47Z) - Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept [56.46135010588918]
RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。
空白確率はセグメント長確率に変換され,その逆も示された。
論文 参考訳(メタデータ) (2021-04-13T11:20:48Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。