Fugu-MT 論文翻訳(概要): Using a Pitch-Synchronous Residual Codebook for Hybrid HMM/Frame Selection Speech Synthesis

論文の概要: Using a Pitch-Synchronous Residual Codebook for Hybrid HMM/Frame Selection Speech Synthesis

arxiv url: http://arxiv.org/abs/1912.12887v1
Date: Mon, 30 Dec 2019 11:34:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-17 02:50:25.040069
Title: Using a Pitch-Synchronous Residual Codebook for Hybrid HMM/Frame Selection Speech Synthesis
Title（参考訳）: ピッチ同期残差符号ブックを用いたハイブリッドHMM/フレーム選択音声合成
Authors: Thomas Drugman, Alexis Moinet, Thierry Dutoit, Geoffrey Wilfart
Abstract要約: 本稿では,統計的パラメトリック音声合成器による品質向上手法を提案する。我々はピッチ同期残差フレームのコードブックを用いて、よりリアルな音源信号を構築する。主観的な結果から, 基礎的手法と比較して改善が見られた。
参考スコア（独自算出の注目度）: 14.029353261380885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a method to improve the quality delivered by statistical parametric speech synthesizers. For this, we use a codebook of pitch-synchronous residual frames, so as to construct a more realistic source signal. First a limited codebook of typical excitations is built from some training database. During the synthesis part, HMMs are used to generate filter and source coefficients. The latter coefficients contain both the pitch and a compact representation of target residual frames. The source signal is obtained by concatenating excitation frames picked up from the codebook, based on a selection criterion and taking target residual coefficients as input. Subjective results show a relevant improvement compared to the basic technique.
Abstract（参考訳）: 本稿では,統計的パラメトリック音声合成器による品質向上手法を提案する。そこで我々は,ピッチ同期残差フレームのコードブックを用いて,よりリアルな音源信号を構築する。まず、典型的な引用の限定的なコードブックがトレーニングデータベースから構築される。合成部では、HMMを用いてフィルタとソース係数を生成する。後者の係数は、ピッチと目標残留フレームのコンパクトな表現の両方を含む。選択基準に基づいてコードブックから選択した励磁フレームを連結し、目標残差係数を入力としてソース信号を得る。主観的な結果は,基本技術と比較して改善が見られた。

関連論文リスト

Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation [13.289870835946347]
大規模言語モデル(LLM)に基づく音声生成モデルは、テキストトークンと基本的に異なる離散音響符号で動作する。各段階において、モデルはNのコードブックエントリを共同で予測し、単純な並列予測アプローチに挑戦する依存関係を導入する必要がある。これを解決するために階層戦略では、ローカルトランスフォーマー(LT)を使用して予測を洗練し、タイムステップ内依存関係をキャプチャする。本稿では,計算効率や合成忠実度などのデプロイメントの優先順位に基づいて,デコード戦略を選択するための実践的ガイドラインを提案する。
論文参考訳（メタデータ） (2025-09-23T21:31:00Z)
Latent Granular Resynthesis using Neural Audio Codecs [0.0]
本稿では,潜在ベクトルレベルでの粒状合成の概念を再構築することで,創造的な音声再生を実現する新しい手法を提案する。提案手法は,ソース音声コーパスを潜在ベクトルセグメントに符号化し,ターゲット音声信号の各潜在粒度をコードブックに最も近いものとマッチングすることにより,"粒状コードブック"を作成する。得られたハイブリッドシーケンスをデコードして、ソースの音節特性を採用しながら、ターゲットの時間構造を保存するオーディオを生成する。
論文参考訳（メタデータ） (2025-07-25T12:14:12Z)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。 MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文参考訳（メタデータ） (2024-07-11T14:36:53Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-28T08:32:19Z)
Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文参考訳（メタデータ） (2023-06-17T14:16:24Z)
A Well-Composed Text is Half Done! Composition Sampling for Diverse Conditional Generation [79.98319703471596]
高品質の条件付き生成のための多種多様な出力を生成するための簡易で効果的な合成サンプリング法であるコンポジションサンプリングを提案する。これは最近提案された計画ベースのニューラルジェネレーションモデルに基づいて構築され、まず最初に出力の合成を作成し、それと入力を条件付けして生成するように訓練される。
論文参考訳（メタデータ） (2022-03-28T21:24:03Z)
An Evaluation Study of Generative Adversarial Networks for Collaborative Filtering [75.83628561622287]
本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験的な分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合していないことを観察した。
論文参考訳（メタデータ） (2022-01-05T20:53:27Z)
End-to-end Neural Video Coding Using a Compound Spatiotemporal Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文参考訳（メタデータ） (2021-08-05T19:43:32Z)
Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文参考訳（メタデータ） (2021-08-03T08:38:16Z)
Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-06-25T07:36:47Z)
Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文参考訳（メタデータ） (2020-06-01T17:52:15Z)
Eigenresiduals for improved Parametric Speech Synthesis [11.481208551940998]
音声合成装置における自然な音声を生成するための新しい励起モデルを提案する。このモデルは、ピッチ同期残留フレームの正規正規化に基づく分解に基づいている。 HMMベースシンセサイザーにPCAベースの係数のストリームを追加し、合成中に発声励起を生成する。
論文参考訳（メタデータ） (2020-01-02T09:39:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。