論文の概要: Speech Enhancement Based on Drifting Models
- arxiv url: http://arxiv.org/abs/2604.24199v1
- Date: Mon, 27 Apr 2026 09:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.870022
- Title: Speech Enhancement Based on Drifting Models
- Title(参考訳): ドリフトモデルに基づく音声強調
- Authors: Liang Xu, Diego Caviedes-Nozal, Bastiaan Kleijn, Longfei Felix Yan, Rasmus Kongsgaard Olsson,
- Abstract要約: ドリフトモデル(DriftSE)に基づく音声強調手法を提案する。
DriftSEは平衡問題としてデノイングを定式化する新しい生成フレームワークである。
VoiceBank-DEMANDの実験では、DriftSEは単一のステップで高忠実性向上を実現する。
- 参考スコア(独自算出の注目度): 2.6958419576949146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Speech Enhancement based on Drifting Models (DriftSE), a novel generative framework that formulates denoising as an equilibrium problem. Rather than relying on iterative sampling, DriftSE natively achieves one-step inference by evolving the pushforward distribution of a mapping function to directly match the clean speech distribution. This evolution is driven by a Drifting Field, a learned correction vector that guides samples toward the high-density regions of the clean distribution, which naturally facilitates training on unpaired data by matching distributions rather than paired samples. We investigate the framework under two formulations: a direct mapping from the noisy observation, and a stochastic conditional generative model from a Gaussian prior. Experiments on the VoiceBank-DEMAND benchmark demonstrate that DriftSE achieves high-fidelity enhancement in a single step, outperforming multi-step diffusion baselines and establishing a new paradigm for speech enhancement.
- Abstract(参考訳): 平衡問題としてデノイングを定式化する新しい生成フレームワークであるドリフトモデル(DriftSE)に基づく音声強調を提案する。
DriftSEは反復サンプリングに頼るのではなく、マッピング関数のプッシュフォワード分布を進化させて一段階の推論をネイティブに達成し、クリーンな音声分布と直接一致させる。
この進化は、サンプルをクリーンな分布の高密度領域へ誘導する学習された補正ベクトルであるドリフト場(Drifting Field)によって駆動される。
本稿では,雑音観測からの直接マッピングとガウス以前の確率的条件生成モデルという2つの定式化の下で,この枠組みについて検討する。
VoiceBank-DEMANDベンチマークの実験は、DriftSEが1ステップで高忠実度向上を実現し、多段階拡散ベースラインを上回り、音声強調のための新しいパラダイムを確立することを実証している。
関連論文リスト
- Test-Time Anchoring for Discrete Diffusion Posterior Sampling [38.507644561076894]
後方サンプリングは、事前訓練された離散拡散基礎モデルにとって難しい問題である。
マスク拡散基礎モデルのためのAnchored Posterior Smpling (APS) を提案する。
本手法は線形および非線形逆問題に対する離散拡散サンプリング器の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-02T17:58:37Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Acoustic Waveform Inversion with Image-to-Image Schrödinger Bridges [0.0]
我々は高解像度のサンプルを生成するための条件付き画像共有型Schr"odinger Bridge (c$textI2textSB$) フレームワークを導入する。
実験の結果,提案手法は条件付き拡散モデルの再実装よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-18T10:55:26Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Your Diffusion Model is Secretly a Noise Classifier and Benefits from Contrastive Training [20.492630610281658]
拡散モデルはデータをノイズ化することを学び、訓練されたデノイザを使用してデータ分布から新しいサンプルを生成する。
サンプルに追加される雑音のレベルを識別する,新たな自己教師型学習目標を提案する。
提案手法は逐次的および並列的な設定に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-12T03:03:50Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。