論文の概要: Using a Pitch-Synchronous Residual Codebook for Hybrid HMM/Frame
Selection Speech Synthesis
- arxiv url: http://arxiv.org/abs/1912.12887v1
- Date: Mon, 30 Dec 2019 11:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 02:50:25.040069
- Title: Using a Pitch-Synchronous Residual Codebook for Hybrid HMM/Frame
Selection Speech Synthesis
- Title(参考訳): ピッチ同期残差符号ブックを用いたハイブリッドHMM/フレーム選択音声合成
- Authors: Thomas Drugman, Alexis Moinet, Thierry Dutoit, Geoffrey Wilfart
- Abstract要約: 本稿では,統計的パラメトリック音声合成器による品質向上手法を提案する。
我々はピッチ同期残差フレームのコードブックを用いて、よりリアルな音源信号を構築する。
主観的な結果から, 基礎的手法と比較して改善が見られた。
- 参考スコア(独自算出の注目度): 14.029353261380885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method to improve the quality delivered by statistical
parametric speech synthesizers. For this, we use a codebook of
pitch-synchronous residual frames, so as to construct a more realistic source
signal. First a limited codebook of typical excitations is built from some
training database. During the synthesis part, HMMs are used to generate filter
and source coefficients. The latter coefficients contain both the pitch and a
compact representation of target residual frames. The source signal is obtained
by concatenating excitation frames picked up from the codebook, based on a
selection criterion and taking target residual coefficients as input.
Subjective results show a relevant improvement compared to the basic technique.
- Abstract(参考訳): 本稿では,統計的パラメトリック音声合成器による品質向上手法を提案する。
そこで我々は,ピッチ同期残差フレームのコードブックを用いて,よりリアルな音源信号を構築する。
まず、典型的な引用の限定的なコードブックがトレーニングデータベースから構築される。
合成部では、HMMを用いてフィルタとソース係数を生成する。
後者の係数は、ピッチと目標残留フレームのコンパクトな表現の両方を含む。
選択基準に基づいてコードブックから選択した励磁フレームを連結し、目標残差係数を入力としてソース信号を得る。
主観的な結果は,基本技術と比較して改善が見られた。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - A Well-Composed Text is Half Done! Composition Sampling for Diverse
Conditional Generation [79.98319703471596]
高品質の条件付き生成のための多種多様な出力を生成するための簡易で効果的な合成サンプリング法であるコンポジションサンプリングを提案する。
これは最近提案された計画ベースのニューラルジェネレーションモデルに基づいて構築され、まず最初に出力の合成を作成し、それと入力を条件付けして生成するように訓練される。
論文 参考訳(メタデータ) (2022-03-28T21:24:03Z) - An Evaluation Study of Generative Adversarial Networks for Collaborative
Filtering [75.83628561622287]
本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。
この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験的な分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合していないことを観察した。
論文 参考訳(メタデータ) (2022-01-05T20:53:27Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z) - Eigenresiduals for improved Parametric Speech Synthesis [11.481208551940998]
音声合成装置における自然な音声を生成するための新しい励起モデルを提案する。
このモデルは、ピッチ同期残留フレームの正規正規化に基づく分解に基づいている。
HMMベースシンセサイザーにPCAベースの係数のストリームを追加し、合成中に発声励起を生成する。
論文 参考訳(メタデータ) (2020-01-02T09:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。