論文の概要: Predictive-Generative Drift Decomposition for Speech Enhancement and Separation
- arxiv url: http://arxiv.org/abs/2605.06189v1
- Date: Thu, 07 May 2026 13:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.807405
- Title: Predictive-Generative Drift Decomposition for Speech Enhancement and Separation
- Title(参考訳): 音声強調・分離のための予測生成ドリフト分解
- Authors: Julius Richter, Yoshiki Masuyama, Christoph Boeddeker, Takahiro Edo, Gordon Wichern, Jonathan Le Roux,
- Abstract要約: 本稿では,先行した生成音声による予測手法を増強する,音声強調と分離のためのプラグアンドプレイフレームワークを提案する。
表現力学をタスク固有のドリフトとデノナイジングコンポーネントに分解し、予測推定を生成的サンプリングプロセスに直接組み込む。
これにより、強い事前学習された予測子と生成モデルのパワーを結合する数学的基盤の枠組みが得られる。
- 参考スコア(独自算出の注目度): 42.49632892186173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a plug-and-play framework for speech enhancement and separation that augments predictive methods with a generative speech prior. Our approach, termed Stochastic Interpolant Prior for Speech (SIPS), builds on stochastic interpolants and leverages their flexibility to bridge predictive and generative modeling. Specifically, we decompose the interpolation dynamics into a task-specific drift and a stochastic denoising component, allowing a predictive estimate to be integrated directly into the generative sampling process. This results in a mathematically grounded framework for combining strong pretrained predictors with the expressive power of generative models. To this end, we train a score model using only clean speech, yielding a degradation-agnostic prior that can be reused across tasks. During inference, the predictor provides a deterministic drift that steers the sampling process toward a task-consistent estimate, while the score model preserves perceptual naturalness. Unlike prior hybrid approaches, which typically rely on architecture-specific conditioning and are tied to particular predictors or degradation settings, SIPS provides a unified framework that generalizes across predictors and additive degradation tasks. We demonstrate its effectiveness for both speech enhancement and speech separation using recent predictors such as SEMamba and FlexIO. The proposed method consistently improves perceptual quality, achieving gains up +1.0 NISQA for speech separation.
- Abstract(参考訳): 本稿では,先行した生成音声による予測手法を増強する,音声強調と分離のためのプラグアンドプレイフレームワークを提案する。
SIPS(Stochastic Interpolant Prior for Speech)と呼ばれる我々のアプローチは、確率的補間を基盤として、その柔軟性を活用して予測および生成モデリングを橋渡しする。
具体的には,補間力学をタスク固有ドリフトと確率的復調成分に分解し,予測推定を直接生成サンプリングプロセスに統合する。
これにより、強い事前訓練された予測器と生成モデルの表現力を組み合わせるための数学的基盤の枠組みが得られる。
この目的のために、クリーン音声のみを用いてスコアモデルを訓練し、タスク間で再利用可能な劣化に依存しない事前結果を得る。
推測中、予測子は、タスク一貫性のある見積もりに向けてサンプリングプロセスを操縦する決定論的ドリフトを提供し、スコアモデルは知覚的自然性を保存する。
アーキテクチャ固有の条件に依存し、特定の予測や劣化設定に結びついている従来のハイブリッドアプローチとは異なり、SIPSは、予測や追加的な劣化タスクを一般化する統一されたフレームワークを提供する。
本稿では,SEMamba や FlexIO などの最近の予測器を用いた音声強調と音声分離の有効性を示す。
提案手法は知覚品質を継続的に改善し, 音声分離のための NISQA を+1.0 に向上させる。
関連論文リスト
- Perturbation is All You Need for Extrapolating Language Models [10.671612115533597]
大規模言語モデルをトレーニングするためのシンプルな、しかし強力なフレームワークを紹介します。
我々は、厳密な外挿可能性の理論、すなわち、信頼性のある予測を行うためのモデルクラスの能力を開発する。
提案手法は,競争力のあるサポート性能を維持しつつ,サポート外予測を継続的に改善することを示す。
論文 参考訳(メタデータ) (2026-05-05T23:03:33Z) - Anchored Variational Inference for Personalized Sequential Latent-State Models [0.0]
主題固有のランダム効果を持つ逐次潜在変数モデルは、時間的に構造化されたデータをモデル化するための柔軟なフレームワークを提供する。
この設定において,効率的な近似推定のためのアンカー付き変分推論フレームワークを提案する。
後部平均がほぼ最適なアンカー点であり、結果として得られるアンカー付き変分EMアルゴリズムは標準変分推論の局所的単調性挙動をほぼ保っていることを示す。
論文 参考訳(メタデータ) (2026-04-25T22:02:48Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Causal Self-supervised Pretrained Frontend with Predictive Code for Speech Separation [42.63061599979695]
音声分離(SS)は、複数話者の音声混在を単一話者の音声ストリームに切り離そうとする。
過去と現在の情報のみに依存する因果分離モデルは、リアルタイムストリーミングに有望なソリューションを提供する。
本稿では,将来の情報を因果モデルに暗黙的に組み込むことで,トレーニングと実行時の推論のミスマッチを軽減するための小説を紹介する。
論文 参考訳(メタデータ) (2025-04-03T06:18:30Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Fine-grained Forecasting Models Via Gaussian Process Blurring Effect [6.472434306724611]
時系列予測は、複雑な時間的依存関係と動的な時間的依存関係が存在するため、困難なタスクである。
より多くのトレーニングデータを使用することで精度が向上するが、このソースは制限されることが多い。
我々は、エンドツーエンドの予測・デノゲーションパラダイムを提唱し、画像生成のためのDenoisingアプローチを成功させています。
論文 参考訳(メタデータ) (2023-12-21T20:25:16Z) - Fast and efficient speech enhancement with variational autoencoders [0.0]
変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。
本稿では,複数のサンプル列を生成するランゲヴィン力学に基づく新しい手法を提案する。
提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T09:52:13Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。