論文の概要: Generative Modeling for Low Dimensional Speech Attributes with Neural
Spline Flows
- arxiv url: http://arxiv.org/abs/2203.01786v1
- Date: Thu, 3 Mar 2022 15:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 17:05:29.429580
- Title: Generative Modeling for Low Dimensional Speech Attributes with Neural
Spline Flows
- Title(参考訳): ニューラルスプライン流を用いた低次元音声属性生成モデル
- Authors: Kevin J. Shih, Rafael Valle, Rohan Badlani, J\~oao Felipe Santos,
Bryan Catanzaro
- Abstract要約: ピッチ情報は低次元であるだけでなく、不連続でもあるため、生成的な環境では特にモデル化が困難である。
この問題は、正規化フローにおけるより一般的なアフィンカップリング機構の代用として非常に表現力の高いニューラルスプラインフローに非常に適している。
- 参考スコア(独自算出の注目度): 22.78165635389179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in generative modeling for text-to-speech synthesis,
these models do not yet have the same fine-grained adjustability of
pitch-conditioned deterministic models such as FastPitch and FastSpeech2. Pitch
information is not only low-dimensional, but also discontinuous, making it
particularly difficult to model in a generative setting. Our work explores
several techniques for handling the aforementioned issues in the context of
Normalizing Flow models. We also find this problem to be very well suited for
Neural Spline flows, which is a highly expressive alternative to the more
common affine-coupling mechanism in Normalizing Flows.
- Abstract(参考訳): 近年のテキスト音声合成における生成モデリングの進歩にもかかわらず、これらのモデルはFastPitchやFastSpeech2のようなピッチ条件決定モデルの微調整性は同じではない。
ピッチ情報は低次元だけでなく不連続であり、特に生成的な設定でモデル化するのが困難である。
本研究では,上記の問題を扱うためのいくつかの手法について,正規化フローモデルを用いて検討する。
この問題は神経スプライン流にも非常に適しており、これは流れの正規化においてより一般的なアフィン結合機構の代替として非常に表現力に富んでいる。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Kernelised Normalising Flows [10.31916245015817]
正規化フローは、密度推定と生成の二重能力によって特徴づけられる非パラメトリック統計モデルである。
本稿では,カーネルをフレームワークに統合する新しいカーネル正規化フローパラダイムであるFerumal Flowを紹介する。
論文 参考訳(メタデータ) (2023-07-27T13:18:52Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Distilling the Knowledge from Normalizing Flows [22.578033953780697]
正規化フローは、複数の音声および視覚問題において強力な性能を示す生成モデルの強力なクラスである。
本稿では, 簡易蒸留法を提案し, 画像超解像と音声合成のための現状条件付きフローベースモデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-24T00:10:22Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - WaveNODE: A Continuous Normalizing Flow for Speech Synthesis [15.051929807285847]
本稿では,音声合成のための連続正規化フローを利用するWaveNODEと呼ばれる新しい生成モデルを提案する。
WaveNODEはフロー操作に使用する関数に制約を課さないため、より柔軟で複雑な関数を使用することができる。
本研究では,従来のフローベースボコーダに比べて少ないパラメータでウェーブヌードが同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-06-08T13:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。