論文の概要: Vocoder-Projected Feature Discriminator
- arxiv url: http://arxiv.org/abs/2508.17874v1
- Date: Mon, 25 Aug 2025 10:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.731229
- Title: Vocoder-Projected Feature Discriminator
- Title(参考訳): Vocoder-Projected Feature Discriminator
- Authors: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo,
- Abstract要約: テキスト音声変換(TTS)や音声変換(VC)では、メルスペクトログラムのような音響的特徴は一般的に合成や変換のターゲットとして使用される。
本稿では,Vocoder 特徴分別器 (VPFD) を提案する。
拡散型VC蒸留実験により, プレトレーニングされた冷凍ボコーダの特徴抽出器が必要であり, 波形判別器に匹敵するVC性能を実現するのに十分であることがわかった。
- 参考スコア(独自算出の注目度): 42.55959060773461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as mel spectrograms, are typically used as synthesis or conversion targets owing to their compactness and ease of learning. However, because the ultimate goal is to generate high-quality waveforms, employing a vocoder to convert these features into waveforms and applying adversarial training in the time domain is reasonable. Nevertheless, upsampling the waveform introduces significant time and memory overheads. To address this issue, we propose a vocoder-projected feature discriminator (VPFD), which uses vocoder features for adversarial training. Experiments on diffusion-based VC distillation demonstrated that a pretrained and frozen vocoder feature extractor with a single upsampling step is necessary and sufficient to achieve a VC performance comparable to that of waveform discriminators while reducing the training time and memory consumption by 9.6 and 11.4 times, respectively.
- Abstract(参考訳): テキスト音声変換(TTS)や音声変換(VC)では、メルスペクトログラムのような音響的特徴は、そのコンパクトさと学習の容易さにより、一般的に合成や変換のターゲットとして使用される。
しかし、最終的なゴールは高品質な波形を生成することであり、ボコーダを用いてこれらの特徴を波形に変換し、時間領域における敵の訓練を適用することは合理的である。
それでも、波形のアップサンプリングは、かなりの時間とメモリオーバーヘッドをもたらす。
この問題に対処するため,Vocoder-projected feature discriminator (VPFD) を提案する。
拡散型VC蒸留実験により,1回のアップサンプリングステップを有するプレトレーニングおよび凍結型ボコーダ特徴抽出器が必要であり,それぞれ9.6倍,11.4倍のトレーニング時間とメモリ消費を減少させながら,波形判別器に匹敵するVC性能を実現することができた。
関連論文リスト
- WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching [1.6385815610837167]
WaveFMはメル-スペクトログラム条件付き音声合成のためのフローマッチングモデルである。
本モデルは,従来の拡散ボコーダと比較して,品質と効率の両面で優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-20T20:17:17Z) - Wavetable Synthesis Using CVAE for Timbre Control Based on Semantic Label [2.0124254762298794]
本研究は,直感的かつ感受性の高い波形合成における音色制御手法を提案する。
条件付き変分オートエンコーダ(CVAE)を使用して、ユーザはウェーブテーブルを選択し、明るい、暖かい、リッチなラベルで音色を定義することができる。
論文 参考訳(メタデータ) (2024-10-24T10:37:54Z) - Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。
これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文 参考訳(メタデータ) (2024-08-30T15:49:31Z) - PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a
Diffusion Probabilistic Model [12.292092677396349]
本稿では,拡散確率モデル(DDPM)に基づくニューラルボコーダを提案する。
本モデルは,音声波形の周期的構造を明示的な周期的信号を組み込むことで正確に把握することを目的としている。
実験の結果,従来のDDPM方式のニューラルボコーダよりも音質が向上し,ピッチ制御が向上した。
論文 参考訳(メタデータ) (2024-02-22T16:47:15Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating
Inverse Short-Time Fourier Transform [38.271530231451834]
メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。
典型的な畳み込みメル-スペクトログラムボコーダは、畳み込みニューラルネットワークを用いてこれらの問題を共同で暗黙的に解決する。
我々は,メルスペクトルボコーダの出力側層を,逆ショートタイムフーリエ変換に置き換えるiSTFTNetを提案する。
論文 参考訳(メタデータ) (2022-03-04T16:05:48Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。