Fugu-MT 論文翻訳(概要): RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction

論文の概要: RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction

arxiv url: http://arxiv.org/abs/2403.05010v1
Date: Fri, 8 Mar 2024 03:16:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:17:41.965957
Title: RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction
Title（参考訳）: RFWave:マルチバンド整流流による波形再構成
Authors: Peng Liu, Dongyang Dai
Abstract要約: 本稿では,Mel-spectrograms から高忠実度音声波形を再構成する新しいマルチバンド整流流法 RFWave を提案する。 RFWaveは例外的な再構成品質と優れた計算効率を実現し、リアルタイムで90倍の速さで音声を生成することができる。
参考スコア（独自算出の注目度）: 4.767507323461407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in generative modeling have led to significant progress in audio waveform reconstruction from diverse representations. Although diffusion models have been used for reconstructing audio waveforms, they tend to exhibit latency issues because they operate at the level of individual sample points and require a relatively large number of sampling steps. In this study, we introduce RFWave, a novel multi-band Rectified Flow approach that reconstructs high-fidelity audio waveforms from Mel-spectrograms. RFWave is distinctive for generating complex spectrograms and operating at the frame level, processing all subbands concurrently to enhance efficiency. Thanks to Rectified Flow, which aims for a flat transport trajectory, RFWave requires only 10 sampling steps. Empirical evaluations demonstrate that RFWave achieves exceptional reconstruction quality and superior computational efficiency, capable of generating audio at a speed 90 times faster than real-time.
Abstract（参考訳）: 生成的モデリングの最近の進歩は、様々な表現からの音声波形再構成に大きな進歩をもたらした。拡散モデルは音声波形の再構成に用いられてきたが、個々のサンプル点のレベルで動作し、比較的多くのサンプリングステップを必要とするため、遅延問題が発生する傾向にある。本研究では,メルスペクトルから高忠実度音声波形を再構成する新しいマルチバンド整流流法RFWaveを紹介する。 RFWaveは複雑なスペクトログラムを生成し、フレームレベルで動作し、全てのサブバンドを同時に処理することで効率を向上させる。平らな輸送路を目指すRectified Flowのおかげで、RFWaveは10ステップのサンプリングしか必要としない。実時間よりも90倍速い速度で音声を生成できるRFWaveは、例外的な再構成品質と優れた計算効率を実現する。

関連論文リスト

Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution [4.495657539150699]
SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
論文参考訳（メタデータ） (2024-09-14T06:52:00Z)
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization [37.35829410807451]
本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。 PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
論文参考訳（メタデータ） (2024-08-15T08:34:00Z)
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文参考訳（メタデータ） (2024-08-14T13:36:17Z)
Spatial Annealing for Efficient Few-shot Neural Rendering [73.49548565633123]
我々はtextbfSpatial textbf Annealing regularized textbfNeRF (textbfSANeRF) という,正確で効率的な数発のニューラルレンダリング手法を導入する。単に1行のコードを追加することで、SANeRFは、現在の数ショットのニューラルレンダリング方法と比較して、より優れたレンダリング品質とはるかに高速な再構築速度を提供する。
論文参考訳（メタデータ） (2024-06-12T02:48:52Z)
WaveDH: Wavelet Sub-bands Guided ConvNet for Efficient Image Dehazing [20.094839751816806]
画像デハージングにおけるこの効率ギャップに対処するために設計された,新規でコンパクトなConvNetであるWaveDHを紹介する。我々のWaveDHはウェーブレットサブバンドを利用して、誘導型アップ・アンド・ダウンサンプリングと周波数認識機能の改良を行う。提案手法であるWaveDHは,計算コストを大幅に削減した画像デハージングベンチマークにおいて,最先端の多くの手法より優れている。
論文参考訳（メタデータ） (2024-04-02T02:52:05Z)
WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields [149.2296890464997]
我々は、ウェーブレット周波数分解をMVSとNeRFに統合したWaveNeRFを設計する。 WaveNeRFは、3つの画像のみを入力として与えたときに、より優れた一般化可能な放射場モデリングを実現する。
論文参考訳（メタデータ） (2023-08-09T09:24:56Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
WaveDM: Wavelet-Based Diffusion Models for Image Restoration [43.254438752311714]
Wavelet-based Diffusion Model (WaveDM) は、ウェーブレット変換後の劣化画像のウェーブレットスペクトルに条件付きウェーブレット領域におけるクリーン画像の分布を学習する。 WaveDMは、従来のワンパス手法に匹敵する効率で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-23T08:41:04Z)
Synthetic Wave-Geometric Impulse Responses for Improved Speech Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文参考訳（メタデータ） (2022-12-10T20:15:23Z)
Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文参考訳（メタデータ） (2022-11-29T12:25:25Z)
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。 FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文参考訳（メタデータ） (2022-04-21T07:49:09Z)
WaveFill: A Wavelet-based Generation Network for Image Inpainting [57.012173791320855]
WaveFillはウェーブレットベースの塗装ネットワークで、画像を複数の周波数帯域に分解する。 WaveFillは、空間情報を自然に保存する離散ウェーブレット変換(DWT)を用いて画像を分解する。低周波帯にL1再構成損失を、高周波帯に敵対損失を施し、それによって周波数間紛争を効果的に軽減する。
論文参考訳（メタデータ） (2021-07-23T04:44:40Z)
WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。 6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文参考訳（メタデータ） (2020-09-02T17:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。