論文の概要: Phase Continuity: Learning Derivatives of Phase Spectrum for Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2202.11918v1
- Date: Thu, 24 Feb 2022 06:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:21:24.795786
- Title: Phase Continuity: Learning Derivatives of Phase Spectrum for Speech
Enhancement
- Title(参考訳): 位相連続性:音声強調のための位相スペクトルの学習
- Authors: Doyeon Kim, Hyewon Han, Hyeon-Kyeong Shin, Soo-Whan Chung, and
Hong-Goo Kang
- Abstract要約: ノイズの多い環境で動作可能な音声強調のための効果的な位相再構成戦略を提案する。
提案手法はベースライン上での音声信号の質をさらに向上することを示す。
- 参考スコア(独自算出の注目度): 22.023315589290586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural speech enhancement models usually include various forms of
phase information in their training loss terms, either explicitly or
implicitly. However, these loss terms are typically designed to reduce the
distortion of phase spectrum values at specific frequencies, which ensures they
do not significantly affect the quality of the enhanced speech. In this paper,
we propose an effective phase reconstruction strategy for neural speech
enhancement that can operate in noisy environments. Specifically, we introduce
a phase continuity loss that considers relative phase variations across the
time and frequency axes. By including this phase continuity loss in a
state-of-the-art neural speech enhancement system trained with reconstruction
loss and a number of magnitude spectral losses, we show that our proposed
method further improves the quality of enhanced speech signals over the
baseline, especially when training is done jointly with a magnitude spectrum
loss.
- Abstract(参考訳): 現代のニューラルスピーチエンハンスメントモデルは、通常、トレーニング損失項に、明示的または暗黙的に、様々な形態の位相情報を含む。
しかしながら、これらの損失項は典型的には特定の周波数における位相スペクトル値の歪みを低減するために設計されており、拡張された音声の品質に大きく影響しない。
本稿では,雑音環境下で動作可能な音声強調のための効果的な位相再構成戦略を提案する。
具体的には、時間と周波数軸の相対位相変化を考慮した位相連続損失を導入する。
この位相連続性損失を再構成損失と数桁のスペクトル損失で訓練した最先端のニューラル音声強調システムに組み込むことにより,提案手法により,特に大きなスペクトル損失を併用した訓練において,ベースライン上の拡張音声信号の品質がさらに向上することを示す。
関連論文リスト
- Stage-Wise and Prior-Aware Neural Speech Phase Prediction [28.422370098313788]
本稿では,SP-NSPP(Stage-wise and Prior-Aware Neural Speech Phase Prediction)モデルを提案する。
初期事前構成段階では、振幅スペクトルから粗い前相スペクトルを予め予測する。
その後の精細化段階は、振幅スペクトルを前相に条件付き精製された高品質の位相スペクトルに変換する。
論文 参考訳(メタデータ) (2024-10-07T12:45:20Z) - PhasePerturbation: Speech Data Augmentation via Phase Perturbation for
Automatic Speech Recognition [22.322528334591134]
本稿では、位相摂動と呼ばれる新しい音声データ拡張手法を提案する。
位相摂動は音声の位相スペクトル上で動的に動作する。
論文 参考訳(メタデータ) (2023-12-13T23:46:26Z) - Assessing the Generalization Gap of Learning-Based Speech Enhancement
Systems in Noisy and Reverberant Environments [0.7366405857677227]
目に見えない条件への一般化は、通常、新しい音声、雑音または部屋のインパルス応答データベースでシステムをテストすることで評価される。
本研究では,テスト条件に基づいてトレーニングした参照モデルを用いた一般化評価フレームワークを提案する。
提案手法を用いて,フィードフォワードニューラルネットワーク(FFNN),ConvTasNet,DCCRN,MANNERの一般化ポテンシャルを評価する。
論文 参考訳(メタデータ) (2023-09-12T12:51:12Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Amplitude-Phase Recombination: Rethinking Robustness of Convolutional
Neural Networks in Frequency Domain [31.182376196295365]
CNNは、トレーニング画像の高周波成分と密接に関連する局所最適値に収束する傾向にある。
現在の画像の位相スペクトルとイントラクタ画像の振幅スペクトルを再結合して設計されたデータ拡張に関する新しい視点。
論文 参考訳(メタデータ) (2021-08-19T04:04:41Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z) - Progressive Training of Multi-level Wavelet Residual Networks for Image
Denoising [80.10533234415237]
本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング手法を提案する。
人工ノイズ画像と実世界のノイズ画像の両方で実験したところ、PT-MWRNは最先端のノイズ評価法に対して良好に機能することがわかった。
論文 参考訳(メタデータ) (2020-10-23T14:14:00Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z) - Phase-based Information for Voice Pathology Detection [11.481208551940998]
本稿では,音声障害を自動的に検出するフェーズベース機能の可能性について検討する。
グループ遅延関数は、発声における不規則性を特徴付けるのに適切であることを示す。
論文 参考訳(メタデータ) (2020-01-02T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。