論文の概要: RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction
- arxiv url: http://arxiv.org/abs/2403.05010v1
- Date: Fri, 8 Mar 2024 03:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:17:41.965957
- Title: RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction
- Title(参考訳): RFWave:マルチバンド整流流による波形再構成
- Authors: Peng Liu, Dongyang Dai
- Abstract要約: 本稿では,Mel-spectrograms から高忠実度音声波形を再構成する新しいマルチバンド整流流法 RFWave を提案する。
RFWaveは例外的な再構成品質と優れた計算効率を実現し、リアルタイムで90倍の速さで音声を生成することができる。
- 参考スコア(独自算出の注目度): 4.767507323461407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in generative modeling have led to significant progress
in audio waveform reconstruction from diverse representations. Although
diffusion models have been used for reconstructing audio waveforms, they tend
to exhibit latency issues because they operate at the level of individual
sample points and require a relatively large number of sampling steps. In this
study, we introduce RFWave, a novel multi-band Rectified Flow approach that
reconstructs high-fidelity audio waveforms from Mel-spectrograms. RFWave is
distinctive for generating complex spectrograms and operating at the frame
level, processing all subbands concurrently to enhance efficiency. Thanks to
Rectified Flow, which aims for a flat transport trajectory, RFWave requires
only 10 sampling steps. Empirical evaluations demonstrate that RFWave achieves
exceptional reconstruction quality and superior computational efficiency,
capable of generating audio at a speed 90 times faster than real-time.
- Abstract(参考訳): 生成的モデリングの最近の進歩は、様々な表現からの音声波形再構成に大きな進歩をもたらした。
拡散モデルは音声波形の再構成に用いられてきたが、個々のサンプル点のレベルで動作し、比較的多くのサンプリングステップを必要とするため、遅延問題が発生する傾向にある。
本研究では,メルスペクトルから高忠実度音声波形を再構成する新しいマルチバンド整流流法RFWaveを紹介する。
RFWaveは複雑なスペクトログラムを生成し、フレームレベルで動作し、全てのサブバンドを同時に処理することで効率を向上させる。
平らな輸送路を目指すRectified Flowのおかげで、RFWaveは10ステップのサンプリングしか必要としない。
実時間よりも90倍速い速度で音声を生成できるRFWaveは、例外的な再構成品質と優れた計算効率を実現する。
関連論文リスト
- WaveDH: Wavelet Sub-bands Guided ConvNet for Efficient Image Dehazing [20.094839751816806]
画像デハージングにおけるこの効率ギャップに対処するために設計された,新規でコンパクトなConvNetであるWaveDHを紹介する。
我々のWaveDHはウェーブレットサブバンドを利用して、誘導型アップ・アンド・ダウンサンプリングと周波数認識機能の改良を行う。
提案手法であるWaveDHは,計算コストを大幅に削減した画像デハージングベンチマークにおいて,最先端の多くの手法より優れている。
論文 参考訳(メタデータ) (2024-04-02T02:52:05Z) - Fast Sampling generative model for Ultrasound image reconstruction [3.3545464959630578]
本稿では,超音波信号とデータ駆動前のデータ一貫性を同時に実施する新しいサンプリングフレームワークを提案する。
高度な拡散モデルを利用することで、高品質な画像の生成が大幅に高速化される。
論文 参考訳(メタデータ) (2023-12-15T03:28:17Z) - WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields [149.2296890464997]
我々は、ウェーブレット周波数分解をMVSとNeRFに統合したWaveNeRFを設計する。
WaveNeRFは、3つの画像のみを入力として与えたときに、より優れた一般化可能な放射場モデリングを実現する。
論文 参考訳(メタデータ) (2023-08-09T09:24:56Z) - WaveDM: Wavelet-Based Diffusion Models for Image Restoration [43.254438752311714]
Wavelet-based Diffusion Model (WaveDM) は、ウェーブレット変換後の劣化画像のウェーブレットスペクトルに条件付きウェーブレット領域におけるクリーン画像の分布を学習する。
WaveDMは、従来のワンパス手法に匹敵する効率で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T08:41:04Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - WaveFill: A Wavelet-based Generation Network for Image Inpainting [57.012173791320855]
WaveFillはウェーブレットベースの塗装ネットワークで、画像を複数の周波数帯域に分解する。
WaveFillは、空間情報を自然に保存する離散ウェーブレット変換(DWT)を用いて画像を分解する。
低周波帯にL1再構成損失を、高周波帯に敵対損失を施し、それによって周波数間紛争を効果的に軽減する。
論文 参考訳(メタデータ) (2021-07-23T04:44:40Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。