論文の概要: Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum
- arxiv url: http://arxiv.org/abs/2601.14472v1
- Date: Tue, 20 Jan 2026 20:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.147887
- Title: Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum
- Title(参考訳): 複素スペクトルにおける位相コヒーレントなニューラルボーコーディングのための韻律誘導高調波注意法
- Authors: Mohammed Salah Al-Radhi, Riad Larbi, Mátyás Bartalis, Géza Németh,
- Abstract要約: 韻律誘導型高調波アテンションを導入し、音声セグメント符号化を強化し、逆STFTによる波形合成のための複雑なスペクトル成分を直接予測する。
ベンチマークデータセットの実験では、HiFi-GANとAutoVocoderに対する一貫した利得が示されている: F0 RMSEは22%削減され、音声/無声エラーは18%減少し、MOSスコアは0.15改善された。
これらの結果から,韻律誘導された注意と直接複素スペクトルモデリングが組み合わさることで,より自然な,ピッチ精度,頑健な合成音声が得られることが示唆された。
- 参考スコア(独自算出の注目度): 1.3066182802188198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural vocoders are central to speech synthesis; despite their success, most still suffer from limited prosody modeling and inaccurate phase reconstruction. We propose a vocoder that introduces prosody-guided harmonic attention to enhance voiced segment encoding and directly predicts complex spectral components for waveform synthesis via inverse STFT. Unlike mel-spectrogram-based approaches, our design jointly models magnitude and phase, ensuring phase coherence and improved pitch fidelity. To further align with perceptual quality, we adopt a multi-objective training strategy that integrates adversarial, spectral, and phase-aware losses. Experiments on benchmark datasets demonstrate consistent gains over HiFi-GAN and AutoVocoder: F0 RMSE reduced by 22 percent, voiced/unvoiced error lowered by 18 percent, and MOS scores improved by 0.15. These results show that prosody-guided attention combined with direct complex spectrum modeling yields more natural, pitch-accurate, and robust synthetic speech, setting a strong foundation for expressive neural vocoding.
- Abstract(参考訳): ニューラルヴォコーダは音声合成の中心であり、その成功にもかかわらず、ほとんどは限定された韻律モデリングと不正確な位相再構成に悩まされている。
韻律誘導型高調波アテンションを導入し、音声セグメント符号化を強化し、逆STFTによる波形合成のための複雑なスペクトル成分を直接予測するボコーダを提案する。
メル・スペクトログラムに基づくアプローチとは異なり、我々の設計は大きさと位相を共同でモデル化し、位相コヒーレンスを確保し、ピッチの忠実度を向上させる。
知覚的品質とさらに整合させるため、対向性、スペクトル性、位相認識的損失を統合する多目的学習戦略を採用した。
ベンチマークデータセットの実験では、HiFi-GANとAutoVocoderに対する一貫した利得が示されている: F0 RMSEは22%削減され、音声/無声エラーは18%減少し、MOSスコアは0.15改善された。
これらの結果は、韻律誘導された注意と直接複素スペクトルモデリングを組み合わせることで、より自然な、ピッチ精度、堅牢な合成音声が得られることを示している。
関連論文リスト
- WaveSeg: Enhancing Segmentation Precision via High-Frequency Prior and Mamba-Driven Spectrum Decomposition [61.3530659856013]
本稿では,空間およびウェーブレット領域の機能改善を共同で最適化する新しいデコーダアーキテクチャであるWaveSegを提案する。
高周波成分は、まず入力画像から、境界の詳細を強化するために明示的な先行として学習される。
標準ベンチマークの実験では、Mambaベースの注目に先立ってウェーブレット-ドメイン周波数を利用するWaveSegが、常に最先端のアプローチより優れていることが示されている。
論文 参考訳(メタデータ) (2025-10-24T01:41:31Z) - UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching [20.92242470770289]
本稿では,複雑なスペクトル係数の条件分布を捉えるために,フローマッチング生成モデルを用いた超解像の超解像化フレームワークを提案する。
実験により,我々のモデルは様々なアップサンプリング要因にまたがる高忠実度48kHzのオーディオを連続的に生成することがわかった。
論文 参考訳(メタデータ) (2025-10-01T11:04:53Z) - WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching [1.6385815610837167]
WaveFMはメル-スペクトログラム条件付き音声合成のためのフローマッチングモデルである。
本モデルは,従来の拡散ボコーダと比較して,品質と効率の両面で優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-20T20:17:17Z) - A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis [3.9940425551415597]
連続ウェーブレット変換(CWT)に基づくメルスペクトル拡張パラダイムを提案する。
このパラダイムはより詳細なウェーブレット・スペクトログラムを導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。
実験結果から,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較してそれぞれ0.14と0.09の改善がみられた。
論文 参考訳(メタデータ) (2024-06-18T00:34:44Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。