論文の概要: ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2509.19495v1
- Date: Tue, 23 Sep 2025 19:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.575343
- Title: ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement
- Title(参考訳): ArtiFree:拡散型音声強調における生成アーチファクトの検出と低減
- Authors: Bhawana Chhaglani, Yang Gao, Julius Richter, Xilin Li, Syavosh Zadissa, Tarun Pruthi, Andrew Lovitt,
- Abstract要約: 音声の埋め込みのばらつきは、推論中に音韻誤差を予測するのに有効であることを示す。
本稿では,複数の拡散動作のセマンティック一貫性によって導かれるアンサンブル推論手法を提案する。
- 参考スコア(独自算出の注目度): 10.16118804174977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based speech enhancement (SE) achieves natural-sounding speech and strong generalization, yet suffers from key limitations like generative artifacts and high inference latency. In this work, we systematically study artifact prediction and reduction in diffusion-based SE. We show that variance in speech embeddings can be used to predict phonetic errors during inference. Building on these findings, we propose an ensemble inference method guided by semantic consistency across multiple diffusion runs. This technique reduces WER by 15% in low-SNR conditions, effectively improving phonetic accuracy and semantic plausibility. Finally, we analyze the effect of the number of diffusion steps, showing that adaptive diffusion steps balance artifact suppression and latency. Our findings highlight semantic priors as a powerful tool to guide generative SE toward artifact-free outputs.
- Abstract(参考訳): 拡散に基づく音声強調(SE)は、自然な発声音声と強力な一般化を実現するが、生成アーチファクトや高い推論遅延といった重要な制限に悩まされる。
本研究では,拡散型SEの人工物予測と低減を系統的に研究する。
音声の埋め込みのばらつきは、推論中に音韻誤差を予測するのに有効であることを示す。
これらの知見に基づいて,複数の拡散動作のセマンティック一貫性によって導かれるアンサンブル推論手法を提案する。
この技術は低SNR条件下でWERを15%削減し、音韻精度と意味的妥当性を効果的に向上させる。
最後に,拡散段数の影響を解析し,適応拡散段数がアーチファクトの抑制と遅延のバランスをとることを示した。
本研究は, 生成的SEを人工的なアウトプットへ導く強力なツールとして, セマンティックな先行性を強調した。
関連論文リスト
- Posterior Transition Modeling for Unsupervised Diffusion-Based Speech Enhancement [26.937216751657697]
クリーン音声の表現的生成先として拡散モデルを用いた教師なし音声強調について検討する。
既存の手法は、ノイズ摂動確率スコアを近似して雑音を用いた逆拡散過程を導出する。
拡散状態の条件逆遷移分布を直接モデル化する2つの代替アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-03T07:42:02Z) - Improved Immiscible Diffusion: Accelerate Diffusion Training by Reducing Its Miscibility [62.272571285823595]
不和がいかに軽視し、効率を向上するかを示す。
そこで本稿では,K-nearest neighbor (KNN) ノイズ選択や画像スケーリングなどの実装のファミリを提案する。
この研究は、今後の高効率拡散訓練研究の新たな方向性を確立する。
論文 参考訳(メタデータ) (2025-05-24T05:38:35Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - An Analysis of the Variance of Diffusion-based Speech Enhancement [15.736484513462973]
分散のスケールが音声強調性能の主要なパラメータであることを示す。
より大きな分散はノイズ減衰を増大させ、計算フットプリントを低減できることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:46:19Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffProsody: Diffusion-based Latent Prosody Generation for Expressive
Speech Synthesis with Prosody Conditional Adversarial Training [29.18355147307535]
本研究では,拡散型潜在韻律生成器と韻律条件付き逆律学習を用いて表現音声を合成するDiffProsodyという新しい手法を提案する。
本研究は,韻律ベクトル生成における韻律生成装置の有効性を確認するとともに,韻律ベクトルの正確なエミュレートにより,韻律条件判別器が生成音声の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-07-31T10:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。