論文の概要: Stage-Wise and Prior-Aware Neural Speech Phase Prediction
- arxiv url: http://arxiv.org/abs/2410.04990v1
- Date: Mon, 7 Oct 2024 12:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:57:50.139225
- Title: Stage-Wise and Prior-Aware Neural Speech Phase Prediction
- Title(参考訳): ステージワイズと事前認識型ニューラル音声位相予測
- Authors: Fei Liu, Yang Ai, Hui-Peng Du, Ye-Xin Lu, Rui-Chen Zheng, Zhen-Hua Ling,
- Abstract要約: 本稿では,SP-NSPP(Stage-wise and Prior-Aware Neural Speech Phase Prediction)モデルを提案する。
初期事前構成段階では、振幅スペクトルから粗い前相スペクトルを予め予測する。
その後の精細化段階は、振幅スペクトルを前相に条件付き精製された高品質の位相スペクトルに変換する。
- 参考スコア(独自算出の注目度): 28.422370098313788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel Stage-wise and Prior-aware Neural Speech Phase Prediction (SP-NSPP) model, which predicts the phase spectrum from input amplitude spectrum by two-stage neural networks. In the initial prior-construction stage, we preliminarily predict a rough prior phase spectrum from the amplitude spectrum. The subsequent refinement stage transforms the amplitude spectrum into a refined high-quality phase spectrum conditioned on the prior phase. Networks in both stages use ConvNeXt v2 blocks as the backbone and adopt adversarial training by innovatively introducing a phase spectrum discriminator (PSD). To further improve the continuity of the refined phase, we also incorporate a time-frequency integrated difference (TFID) loss in the refinement stage. Experimental results confirm that, compared to neural network-based no-prior phase prediction methods, the proposed SP-NSPP achieves higher phase prediction accuracy, thanks to introducing the coarse phase priors and diverse training criteria. Compared to iterative phase estimation algorithms, our proposed SP-NSPP does not require multiple rounds of staged iterations, resulting in higher generation efficiency.
- Abstract(参考訳): 本稿では,入力振幅スペクトルからの位相スペクトルを2段階ニューラルネットワークで予測するSP-NSPP(Stage-wise and Prior-Aware Neural Speech Phase Prediction)モデルを提案する。
初期事前構成段階では、振幅スペクトルから粗い前相スペクトルを予め予測する。
その後の精細化段階は、振幅スペクトルを前相に条件付き精製された高品質の位相スペクトルに変換する。
両段階のネットワークは、ConvNeXt v2ブロックをバックボーンとして使用し、位相スペクトル判別器(PSD)を革新的に導入して敵の訓練を採用する。
改良相の連続性をさらに向上するため, 改良段階において時間周波数積分差(TFID)損失を取り入れた。
実験結果から, ニューラルネットワークを用いた非優先位相予測法と比較して, 粗い位相先行と多様なトレーニング基準を導入することにより, 提案したSP-NSPPの位相予測精度が向上することが確認された。
繰り返し位相推定アルゴリズムと比較して,提案するSP-NSPPは複数ラウンドの繰り返しを必要とせず,生成効率が向上する。
関連論文リスト
- Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization [41.20978920228298]
第2フェーズは、経験的リスクが一定の閾値以下に落ちてから始まり、ステップサイズに依存することを示す。
また、正規化マージンは第2相においてほぼ単調に成長し、非均一予測器のトレーニングにおいてGDの暗黙の偏りを示す。
我々の分析は、よく知られたニューラルネットワークカーネルや平均場状態を超えて、あらゆる幅のネットワークに適用できる。
論文 参考訳(メタデータ) (2024-06-12T21:33:22Z) - PhasePerturbation: Speech Data Augmentation via Phase Perturbation for
Automatic Speech Recognition [22.322528334591134]
本稿では、位相摂動と呼ばれる新しい音声データ拡張手法を提案する。
位相摂動は音声の位相スペクトル上で動的に動作する。
論文 参考訳(メタデータ) (2023-12-13T23:46:26Z) - SurgPLAN: Surgical Phase Localization Network for Phase Recognition [14.857715124466594]
そこで我々は,より正確で安定した手術相認識を支援するために,SurgPLANと呼ばれる手術相ロカライズネットワークを提案する。
まず、フレームサンプリング率の異なる2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚バックボーンとして、Praamid SlowFast (PSF) アーキテクチャを考案した。
論文 参考訳(メタデータ) (2023-11-16T15:39:01Z) - Discriminating the Phase of a Coherent Tone with a Flux-Switchable
Superconducting Circuit [50.591267188664666]
フラックススイッチ可能な超伝導回路を用いた新しい位相検出手法を提案する。
ジョセフソンデジタル位相検出器(JDPD)は、コヒーレント入力音の2つの位相値を判別することができる。
論文 参考訳(メタデータ) (2023-06-20T08:09:37Z) - Exact Phase Transitions in Deep Learning [5.33024001730262]
トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
論文 参考訳(メタデータ) (2022-05-25T06:00:34Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Proximal Policy Optimization-based Transmit Beamforming and Phase-shift
Design in an IRS-aided ISAC System for the THz Band [90.45915557253385]
テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案し,システム容量を最大化する。
透過ビームフォーミングと位相シフト設計はエルゴード制約を伴う普遍最適化問題に変換される。
論文 参考訳(メタデータ) (2022-03-21T09:15:18Z) - Dual-Frequency Quantum Phase Estimation Mitigates the Spectral Leakage
of Quantum Algorithms [76.15799379604898]
量子位相推定は、レコード長の逆数が未知の位相の整数倍でない場合にスペクトルリークに悩まされる。
複数のサンプルが利用できるとき,クレーマー・ラオ境界に近づいた二重周波数推定器を提案する。
論文 参考訳(メタデータ) (2022-01-23T17:20:34Z) - Squeezing as a resource to counteract phase diffusion in optical phase
estimation [0.0]
位相情報を符号化する前にノイズが発生する状況を分析する。
ノイズ後のプローブのスクイーズが推定手法の感度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-07T13:08:23Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。