論文の概要: Diffusion-Based Speech Enhancement with Joint Generative and Predictive
Decoders
- arxiv url: http://arxiv.org/abs/2305.10734v2
- Date: Wed, 28 Feb 2024 12:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 19:10:21.760614
- Title: Diffusion-Based Speech Enhancement with Joint Generative and Predictive
Decoders
- Title(参考訳): 共同生成型および予測型デコーダを用いた拡散型音声強調
- Authors: Hao Shi, Kazuki Shimada, Masato Hirano, Takashi Shibuya, Yuichiro
Koyama, Zhi Zhong, Shusuke Takahashi, Tatsuya Kawahara, Yuki Mitsufuji
- Abstract要約: 本稿では,2段階にわたる共同生成型および予測型デコーダを用いた統合システムを提案する。
Voice-Bankデータセットで実施された実験は、予測情報を組み込むことで、より高速な復号化とより高いPSSQスコアが得られることを示した。
- 参考スコア(独自算出の注目度): 38.78712921188612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative speech enhancement (SE) has recently received
attention, but reverse diffusion remains time-consuming. One solution is to
initialize the reverse diffusion process with enhanced features estimated by a
predictive SE system. However, the pipeline structure currently does not
consider for a combined use of generative and predictive decoders. The
predictive decoder allows us to use the further complementarity between
predictive and diffusion-based generative SE. In this paper, we propose a
unified system that use jointly generative and predictive decoders across two
levels. The encoder encodes both generative and predictive information at the
shared encoding level. At the decoded feature level, we fuse the two decoded
features by generative and predictive decoders. Specifically, the two SE
modules are fused in the initial and final diffusion steps: the initial fusion
initializes the diffusion process with the predictive SE to improve
convergence, and the final fusion combines the two complementary SE outputs to
enhance SE performance. Experiments conducted on the Voice-Bank dataset
demonstrate that incorporating predictive information leads to faster decoding
and higher PESQ scores compared with other score-based diffusion SE (StoRM and
SGMSE+).
- Abstract(参考訳): 拡散に基づく生成音声強調(SE)は近年注目されているが,逆拡散は時間を要する。
1つの解決策は、予測SEシステムによって推定される機能により逆拡散過程を初期化することである。
しかし、パイプライン構造は現在、生成デコーダと予測デコーダの組み合わせについては考慮されていない。
予測デコーダは、予測と拡散に基づく生成SEのさらなる相補性を利用することができる。
本稿では,2つのレベルにまたがる生成的および予測的デコーダを併用した統一システムを提案する。
エンコーダは、生成情報と予測情報の両方を共有符号化レベルで符号化する。
デコードされた特徴レベルでは、生成的および予測的デコーダによって2つのデコードされた特徴を融合する。
特に、2つのseモジュールは初期拡散ステップと最終拡散ステップで融合される:初期融合は拡散プロセスを初期化し、予測seは収束を改善し、最終融合は2つの相補的なse出力を結合してse性能を向上させる。
Voice-Bankデータセットで行った実験は、予測情報を組み込むことで、他のスコアベース拡散SE(StoRMとSGMSE+)と比較して、より高速な復号化とより高いPSSQスコアが得られることを示した。
関連論文リスト
- Take an Irregular Route: Enhance the Decoder of Time-Series Forecasting
Transformer [9.281993269355544]
本稿では,エンコーダとデコーダのボトムアップおよびトップダウンアーキテクチャを利用して,完全かつ合理的な階層を構築するためのFPPformerを提案する。
6つの最先端ベンチマークによる大規模な実験は、FPPformerの有望な性能を検証する。
論文 参考訳(メタデータ) (2023-12-10T06:50:56Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - End-to-end optimized image compression with competition of prior
distributions [29.585370305561582]
本稿では,単一の畳み込みオートエンコーダと学習前の複数分布を用いた圧縮方式を提案する。
提案手法は, 予め予測したパラメトリケート値に匹敵する速度歪み特性を示す。
論文 参考訳(メタデータ) (2021-11-17T15:04:01Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。