論文の概要: DDSP-QbE++: Improving Speech Quality for Speech Anonymisation for Atypical Speech
- arxiv url: http://arxiv.org/abs/2604.09246v1
- Date: Fri, 10 Apr 2026 11:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.845582
- Title: DDSP-QbE++: Improving Speech Quality for Speech Anonymisation for Atypical Speech
- Title(参考訳): DDSP-QbE++:非定型音声の匿名化のための音声品質の改善
- Authors: Suhita Ghosh, Yamini Sinha, Sebastian Stober,
- Abstract要約: 音声変換のためのサブトラクティブ合成P-QbEトレーニングパイプラインの励起段階の改善を提案する。
我々は,高調波励起をゲートするために明示的な発声検出を導入し,未発声領域の周期成分を抑制し,フィルタノイズで置き換える。
提案手法は軽量で微分可能で、学習可能なパラメータを追加せずに既存のP-QbEトレーニングパイプラインにシームレスに統合される。
- 参考スコア(独自算出の注目度): 4.129225533930966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentiable Digital Signal Processing (DDSP) pipelines for voice conversion rely on subtractive synthesis, where a periodic excitation signal is shaped by a learned spectral envelope to reconstruct the target voice. In DDSP-QbE, the excitation is generated via phase accumulation, producing a sawtooth-like waveform whose abrupt discontinuities introduce aliasing artefacts that manifest perceptually as buzziness and spectral distortion, particularly at higher fundamental frequencies. We propose two targeted improvements to the excitation stage of the DDSP-QbE subtractive synthesizer. First, we incorporate explicit voicing detection to gate the harmonic excitation, suppressing the periodic component in unvoiced regions and replacing it with filtered noise, thereby avoiding aliased harmonic content where it is most perceptually disruptive. Second, we apply Polynomial Band-Limited Step (PolyBLEP) correction to the phase-accumulated oscillator, substituting the hard waveform discontinuity at each phase wrap with a smooth polynomial residual that cancels alias-generating components without oversampling or spectral truncation. Together, these modifications yield a cleaner harmonic roll-off, reduced high-frequency artefacts, and improved perceptual naturalness, as measured by MOS. The proposed approach is lightweight, differentiable, and integrates seamlessly into the existing DDSP-QbE training pipeline with no additional learnable parameters.
- Abstract(参考訳): 音声変換のための微分可能デジタル信号処理(DDSP)パイプラインは、学習されたスペクトルエンベロープによって周期的な励起信号が形成される減算合成に依存している。
DDSP-QbEでは、位相蓄積により励起が生成され、特に高い基本周波数において、ブザー性やスペクトル歪みとして知覚的に現れるエイリアシングアーチファクトを突然不連続に導入するソートゥースのような波形が生成される。
DDSP-QbE サブトラクティブシンセサイザーの励起段階に対する2つの改良点を提案する。
まず,無声領域の周期成分を抑え,フィルタノイズに置き換えることにより,最も知覚的に破壊的な高調波コンテンツを避けるために,明示的な発声検出を取り入れた。
第2に,位相蓄積型発振器にポリノミアル帯域制限ステップ(PolyBLEP)補正を適用し,各位相ラップにおけるハード波形の不連続性をスムーズな多項式残差に置き換える。
これらの修正は、MOSが測定したように、よりクリーンな高調波ロールオフ、高周波アーチファクトの低減、知覚自然性の改善をもたらす。
提案手法は軽量で微分可能で、学習可能なパラメータを追加せずに既存のDDSP-QbEトレーニングパイプラインにシームレスに統合される。
関連論文リスト
- Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum [1.3066182802188198]
韻律誘導型高調波アテンションを導入し、音声セグメント符号化を強化し、逆STFTによる波形合成のための複雑なスペクトル成分を直接予測する。
ベンチマークデータセットの実験では、HiFi-GANとAutoVocoderに対する一貫した利得が示されている: F0 RMSEは22%削減され、音声/無声エラーは18%減少し、MOSスコアは0.15改善された。
これらの結果から,韻律誘導された注意と直接複素スペクトルモデリングが組み合わさることで,より自然な,ピッチ精度,頑健な合成音声が得られることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T20:53:24Z) - Non-contact Vital Signs Detection in Dynamic Environments [0.61915796293339]
本稿では,Hilbert and Differential Cross-Multiply (HADCM)復調アルゴリズムとともに,新しいDCオフセット校正法を提案する。
アプローチでは、隣接する信号ピークと谷からの時間変化DCオフセットを推定し、その後、I/Qチャネル信号の微分形式とヒルベルト変換の両方を用いて、バイタルサイン情報を抽出する。
論文 参考訳(メタデータ) (2025-05-13T09:11:48Z) - PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification [49.37555541088792]
位相振幅デカップリング(PAD)は、位相(モダリティ共有)と振幅(モダリティ補完)を分離する周波数対応のフレームワークである。
この研究は、リモートセンシングにおける物理を意識したマルチモーダル融合の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-27T07:21:42Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - UDHF2-Net: Uncertainty-diffusion-model-based High-Frequency TransFormer Network for Remotely Sensed Imagery Interpretation [17.289252835606533]
不確実拡散モデルに基づく高周波トランスフォーマーネットワーク(UDHF2-Net)が最初に提案される。
UDHF2-Netは空間定常非定常高周波接続パラダイム(SHCP)である
Mask-and-geo-knowledge-based uncertainty diffusion module (MUDM) は自己指導型学習戦略である。
周波数ワイド半擬似半擬似UDHF2-Netは、変更検出の精度と複雑さのバランスをとるために提案された最初のものである。
論文 参考訳(メタデータ) (2024-06-23T15:03:35Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Digital noise spectroscopy with a quantum sensor [57.53000001488777]
本稿では,ノイズプロセスの自己相関をサンプリングし,再構成するための量子センシングプロトコルを実験的に導入し,実証する。
ウォルシュノイズ分光法はスピンフリップパルスの単純な配列を利用してディジタルフィルタの完全基底を生成する。
ダイヤモンド中の単一窒素空孔中心の電子スピン上での核スピン浴により生じる有効磁場の自己相関関数を実験的に再構成した。
論文 参考訳(メタデータ) (2022-12-19T02:19:35Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。