論文の概要: DiffPhase: Generative Diffusion-based STFT Phase Retrieval
- arxiv url: http://arxiv.org/abs/2211.04332v1
- Date: Tue, 8 Nov 2022 15:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 17:29:57.041179
- Title: DiffPhase: Generative Diffusion-based STFT Phase Retrieval
- Title(参考訳): DiffPhase: 生成拡散に基づくSTFT位相検索
- Authors: Tal Peer, Simon Welker, Timo Gerkmann
- Abstract要約: 拡散確率モデルは最近、音声強調や合成を含む様々なタスクで使われている。
本研究は,位相探索に特化して音声強調拡散モデルを適用し,音声領域における過去の研究に基づいて構築する。
音声品質とインテリジェンス指標を用いた評価は, 位相探索作業に拡散アプローチが適していることを示し, 性能は古典的手法と近代的手法に勝っている。
- 参考スコア(独自算出の注目度): 15.16865739526702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models have been recently used in a variety of tasks,
including speech enhancement and synthesis. As a generative approach, diffusion
models have been shown to be especially suitable for imputation problems, where
missing data is generated based on existing data. Phase retrieval is inherently
an imputation problem, where phase information has to be generated based on the
given magnitude. In this work we build upon previous work in the speech domain,
adapting a speech enhancement diffusion model specifically for STFT phase
retrieval. Evaluation using speech quality and intelligibility metrics shows
the diffusion approach is well-suited to the phase retrieval task, with
performance surpassing both classical and modern methods.
- Abstract(参考訳): 拡散確率モデルは最近、音声強調や合成を含む様々なタスクで使われている。
生成的アプローチとして、拡散モデルは既存のデータに基づいて欠落データを生成する計算問題に特に適していることが示されている。
位相検索は本質的に、与えられた大きさに基づいて位相情報を生成する必要がある計算問題である。
本研究は,STFT位相探索に特化して音声強調拡散モデルを適用し,音声領域における先行研究に基づいて構築する。
音声品質とインテリジェンス指標を用いた評価は, 位相探索作業に拡散アプローチが適していることを示し, 性能は古典的手法と近代的手法に勝っている。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Diffusion-TS: Interpretable Diffusion for General Time Series Generation [6.639630994040322]
Diffusion-TSは、高品質な時系列サンプルを生成する新しい拡散ベースのフレームワークである。
各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせた。
その結果,Diffusion-TSは時系列の様々な現実的解析において最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:39:23Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Data Augmentation for Seizure Prediction with Generative Diffusion Model [26.967247641926814]
重症度予測は患者の生活改善に非常に重要である。
初期データと中間データの間の深刻な不均衡問題は、依然として大きな課題となっている。
データ拡張は、この問題を解決するための直感的な方法です。
DiffEEGと呼ばれる拡散モデルを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T05:44:53Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - StoRM: A Diffusion-based Stochastic Regeneration Model for Speech
Enhancement and Dereverberation [20.262426487434393]
本稿では,予測モデルによる推定値がさらなる拡散のガイドとして提供される再生手法を提案する。
提案手法は, 高い品質のサンプルを作成しながら, 発声・呼吸アーチファクトを除去するために, 予測モデルを用いていることを示す。
論文 参考訳(メタデータ) (2022-12-22T16:35:42Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。