Fugu-MT 論文翻訳(概要): DiffPhase: Generative Diffusion-based STFT Phase Retrieval

論文の概要: DiffPhase: Generative Diffusion-based STFT Phase Retrieval

arxiv url: http://arxiv.org/abs/2211.04332v1
Date: Tue, 8 Nov 2022 15:50:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-09 17:29:57.041179
Title: DiffPhase: Generative Diffusion-based STFT Phase Retrieval
Title（参考訳）: DiffPhase: 生成拡散に基づくSTFT位相検索
Authors: Tal Peer, Simon Welker, Timo Gerkmann
Abstract要約: 拡散確率モデルは最近、音声強調や合成を含む様々なタスクで使われている。本研究は,位相探索に特化して音声強調拡散モデルを適用し,音声領域における過去の研究に基づいて構築する。音声品質とインテリジェンス指標を用いた評価は, 位相探索作業に拡散アプローチが適していることを示し, 性能は古典的手法と近代的手法に勝っている。
参考スコア（独自算出の注目度）: 15.16865739526702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion probabilistic models have been recently used in a variety of tasks, including speech enhancement and synthesis. As a generative approach, diffusion models have been shown to be especially suitable for imputation problems, where missing data is generated based on existing data. Phase retrieval is inherently an imputation problem, where phase information has to be generated based on the given magnitude. In this work we build upon previous work in the speech domain, adapting a speech enhancement diffusion model specifically for STFT phase retrieval. Evaluation using speech quality and intelligibility metrics shows the diffusion approach is well-suited to the phase retrieval task, with performance surpassing both classical and modern methods.
Abstract（参考訳）: 拡散確率モデルは最近、音声強調や合成を含む様々なタスクで使われている。生成的アプローチとして、拡散モデルは既存のデータに基づいて欠落データを生成する計算問題に特に適していることが示されている。位相検索は本質的に、与えられた大きさに基づいて位相情報を生成する必要がある計算問題である。本研究は,STFT位相探索に特化して音声強調拡散モデルを適用し,音声領域における先行研究に基づいて構築する。音声品質とインテリジェンス指標を用いた評価は, 位相探索作業に拡散アプローチが適していることを示し, 性能は古典的手法と近代的手法に勝っている。

関連論文リスト

Diffusion models for multivariate subsurface generation and efficient probabilistic inversion [0.0]
拡散モデルは、深い生成モデリングタスクのための安定したトレーニングと最先端のパフォーマンスを提供する。本稿では拡散モデルに固有のノイズ汚染を考慮した近似法を提案する。統計的ロバスト性は有意に向上し, 後部確率密度関数のサンプリングが向上した。
論文参考訳（メタデータ） (2025-07-21T17:10:16Z)
Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-03-02T16:10:32Z)
Generalized Diffusion Model with Adjusted Offset Noise [1.7767466724342067]
本稿では,厳密な確率的枠組みの中で自然に付加的な雑音を取り入れた一般化拡散モデルを提案する。我々は、ある調整でノイズを相殺する理論的等価性を確立し、証拠の低い境界に基づいて損失関数を導出する。合成データセットの実験により、我々のモデルは輝度に関する課題に効果的に対処し、高次元シナリオにおいて従来の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-12-04T08:57:03Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2024-09-16T06:33:26Z)
Diffusion-TS: Interpretable Diffusion for General Time Series Generation [6.639630994040322]
Diffusion-TSは、高品質な時系列サンプルを生成する新しい拡散ベースのフレームワークである。各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせた。その結果,Diffusion-TSは時系列の様々な現実的解析において最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (2024-03-04T05:39:23Z)
Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文参考訳（メタデータ） (2023-09-19T09:11:31Z)
Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文参考訳（メタデータ） (2023-08-03T07:22:04Z)
Data Augmentation for Seizure Prediction with Generative Diffusion Model [26.967247641926814]
重症度予測は患者の生活改善に非常に重要である。初期データと中間データの間の深刻な不均衡問題は、依然として大きな課題となっている。データ拡張は、この問題を解決するための直感的な方法です。 DiffEEGと呼ばれる拡散モデルを用いた新しいデータ拡張手法を提案する。
論文参考訳（メタデータ） (2023-06-14T05:44:53Z)
An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文参考訳（メタデータ） (2023-05-26T16:38:48Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation [20.262426487434393]
本稿では,予測モデルによる推定値がさらなる拡散のガイドとして提供される再生手法を提案する。提案手法は, 高い品質のサンプルを作成しながら, 発声・呼吸アーチファクトを除去するために, 予測モデルを用いていることを示す。
論文参考訳（メタデータ） (2022-12-22T16:35:42Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)
Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文参考訳（メタデータ） (2022-02-10T18:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。