論文の概要: Diffusion-Based Speech Enhancement with Joint Generative and Predictive
Decoders
- arxiv url: http://arxiv.org/abs/2305.10734v1
- Date: Thu, 18 May 2023 06:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:43:07.449132
- Title: Diffusion-Based Speech Enhancement with Joint Generative and Predictive
Decoders
- Title(参考訳): 共同生成型および予測型デコーダを用いた拡散型音声強調
- Authors: Hao Shi, Kazuki Shimada, Masato Hirano, Takashi Shibuya, Yuichiro
Koyama, Zhi Zhong, Shusuke Takahashi, Tatsuya Kawahara, Yuki Mitsufuji
- Abstract要約: 2つの拡散型音声強調モジュールを統合する統合システムを提案する。
このシステムは生成情報と予測情報をエンコードし、生成情報と予測デコーダの両方を適用する。
Voice-Bankデータセットの実験では、拡散スコア推定は予測情報から恩恵を受け、デコーディングを高速化できることが示された。
- 参考スコア(独自算出の注目度): 30.797333521601225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based speech enhancement (SE) has been investigated recently, but
its decoding is very time-consuming. One solution is to initialize the decoding
process with the enhanced feature estimated by a predictive SE system. However,
this two-stage method ignores the complementarity between predictive and
diffusion SE. In this paper, we propose a unified system that integrates these
two SE modules. The system encodes both generative and predictive information,
and then applies both generative and predictive decoders, whose outputs are
fused. Specifically, the two SE modules are fused in the first and final
diffusion steps: the first step fusion initializes the diffusion process with
the predictive SE for improving the convergence, and the final step fusion
combines the two complementary SE outputs to improve the SE performance.
Experiments on the Voice-Bank dataset show that the diffusion score estimation
can benefit from the predictive information and speed up the decoding.
- Abstract(参考訳): 拡散に基づく音声強調(SE)は近年研究されているが,その復号は非常に時間がかかる。
1つの解決策は、予測SEシステムによって推定される機能拡張でデコードプロセスを初期化することである。
しかし、この2段階法は予測と拡散SEの相補性を無視する。
本稿では,これら2つのSEモジュールを統合する統一システムを提案する。
このシステムは生成情報と予測情報をエンコードし、生成情報と予測デコーダの両方を適用して出力を融合させる。
具体的には、2つのSEモジュールを第1及び最終拡散ステップで融合する:第1ステップ融合は、収束を改善するために予測SEと拡散プロセスを初期化し、最終ステップ融合は、2つの相補SE出力を結合してSE性能を向上させる。
Voice-Bankデータセットの実験では、拡散スコア推定は予測情報から恩恵を受け、デコーディングを高速化することができる。
関連論文リスト
- Take an Irregular Route: Enhance the Decoder of Time-Series Forecasting
Transformer [9.281993269355544]
本稿では,エンコーダとデコーダのボトムアップおよびトップダウンアーキテクチャを利用して,完全かつ合理的な階層を構築するためのFPPformerを提案する。
6つの最先端ベンチマークによる大規模な実験は、FPPformerの有望な性能を検証する。
論文 参考訳(メタデータ) (2023-12-10T06:50:56Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - End-to-end optimized image compression with competition of prior
distributions [29.585370305561582]
本稿では,単一の畳み込みオートエンコーダと学習前の複数分布を用いた圧縮方式を提案する。
提案手法は, 予め予測したパラメトリケート値に匹敵する速度歪み特性を示す。
論文 参考訳(メタデータ) (2021-11-17T15:04:01Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。