論文の概要: Pseudo-Cepstrum: Pitch Modification for Mel-Based Neural Vocoders
- arxiv url: http://arxiv.org/abs/2512.16519v1
- Date: Thu, 18 Dec 2025 13:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.073928
- Title: Pseudo-Cepstrum: Pitch Modification for Mel-Based Neural Vocoders
- Title(参考訳): Pseudo-Cepstrum:メルベースニューラルボコーダのピッチ修正
- Authors: Nikolaos Ellinas, Alexandra Vioni, Panos Kakoulidis, Georgios Vamvoukakis, Myrsini Christidou, Konstantinos Markopoulos, Junkwang Oh, Gunu Jho, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis,
- Abstract要約: 本稿では,任意のメル-スペクトログラム表現に適用可能なケプストラムに基づくピッチ修正手法を提案する。
結果として、この方法は、追加のトレーニングやモデルの変更を必要とせずに、どんなメルベースのヴォコーダとも互換性がある。
- 参考スコア(独自算出の注目度): 38.64478627682506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a cepstrum-based pitch modification method that can be applied to any mel-spectrogram representation. As a result, this method is compatible with any mel-based vocoder without requiring any additional training or changes to the model. This is achieved by directly modifying the cepstrum feature space in order to shift the harmonic structure to the desired target. The spectrogram magnitude is computed via the pseudo-inverse mel transform, then converted to the cepstrum by applying DCT. In this domain, the cepstral peak is shifted without having to estimate its position and the modified mel is recomputed by applying IDCT and mel-filterbank. These pitch-shifted mel-spectrogram features can be converted to speech with any compatible vocoder. The proposed method is validated experimentally with objective and subjective metrics on various state-of-the-art neural vocoders as well as in comparison with traditional pitch modification methods.
- Abstract(参考訳): 本稿では,任意のメル-スペクトログラム表現に適用可能なケプストラムに基づくピッチ修正手法を提案する。
結果として、この方法は、追加のトレーニングやモデルの変更を必要とせずに、どんなメルベースのヴォコーダとも互換性がある。
これは、所望の目標に調和構造を移すために、ケプストラム特徴空間を直接修正することで達成される。
分光器の大きさは擬似逆メル変換によって計算され、DCTを適用してケプストラムに変換する。
このドメインでは、ケプストラーピークは位置を推定することなく移動し、修正したメルはIDCTおよびメルフィルターバンクを適用して再計算する。
これらのピッチシフトしたメル-スペクトログラム機能は、任意の互換ボコーダで音声に変換することができる。
提案手法は, 従来のピッチ修正法と比較して, 様々な最先端のニューラルボコーダの客観的, 主観的測定値を用いて実験的に検証した。
関連論文リスト
- Graph Embedding with Mel-spectrograms for Underwater Acoustic Target Recognition [3.4185611249587278]
UATR-GTransformerは、Transformerアーキテクチャとグラフニューラルネットワーク(GNN)を統合する非ユークリッドディープラーニングモデルである。
提案モデルでは, 海洋工学への応用の可能性を強調し, 周波数領域情報を効果的に抽出する。
UATR-GTransformerが最先端の手法と競合する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-12T13:25:54Z) - Fast-VGAN: Lightweight Voice Conversion with Explicit Control of F0 and Duration Parameters [7.865191493201841]
ピッチ、持続時間、発話速度などの音声特性の制御は、音声変換の分野において重要な課題である。
本稿では、基本周波数(F0)、音素配列、強度、話者識別を改良する手段を提供することを目的とした畳み込みニューラルネットワークに基づくアプローチを提案する。
提案手法は,高い可知性と話者類似性を維持しつつ,高い柔軟性を提供することを示す。
論文 参考訳(メタデータ) (2025-07-07T09:36:00Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文 参考訳(メタデータ) (2023-08-04T21:59:40Z) - On Robust Learning from Noisy Labels: A Permutation Layer Approach [53.798757734297986]
本稿では、深層ニューラルネットワーク(DNN)のトレーニング過程を動的に校正するPermLLと呼ばれる置換層学習手法を提案する。
本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。
我々はPermLLを実験的に検証し、実際のデータセットと合成データセットの両方で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-11-29T03:01:48Z) - Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration [62.4971588282174]
我々はニューラルクランプ法と呼ばれる新しい後処理キャリブレーション法を提案する。
実験の結果,Neural Clampingは最先端の処理後のキャリブレーション法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-23T14:18:39Z) - iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating
Inverse Short-Time Fourier Transform [38.271530231451834]
メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。
典型的な畳み込みメル-スペクトログラムボコーダは、畳み込みニューラルネットワークを用いてこれらの問題を共同で暗黙的に解決する。
我々は,メルスペクトルボコーダの出力側層を,逆ショートタイムフーリエ変換に置き換えるiSTFTNetを提案する。
論文 参考訳(メタデータ) (2022-03-04T16:05:48Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。