論文の概要: HiFi++: a Unified Framework for Neural Vocoding, Bandwidth Extension and
Speech Enhancement
- arxiv url: http://arxiv.org/abs/2203.13086v1
- Date: Thu, 24 Mar 2022 14:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 15:24:55.141879
- Title: HiFi++: a Unified Framework for Neural Vocoding, Bandwidth Extension and
Speech Enhancement
- Title(参考訳): HiFi++: ニューラルネットワーク、帯域拡張、音声強調のための統一フレームワーク
- Authors: Pavel Andreev, Aibek Alanov, Oleg Ivanov, Dmitry Vetrov
- Abstract要約: 本稿では,ニューラルボコーディング,帯域拡張,音声強調のための新しいHiFi++フレームワークを提案する。
改良されたジェネレータアーキテクチャと簡易なマルチディスクリミネータトレーニングにより、HiFi++はこれらのタスクにおける最先端技術と同等に機能することを示す。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial networks have recently demonstrated outstanding
performance in neural vocoding outperforming best autoregressive and flow-based
models. In this paper, we show that this success can be extended to other tasks
of conditional audio generation. In particular, building upon HiFi vocoders, we
propose a novel HiFi++ general framework for neural vocoding, bandwidth
extension, and speech enhancement. We show that with the improved generator
architecture and simplified multi-discriminator training, HiFi++ performs on
par with the state-of-the-art in these tasks while spending significantly less
memory and computational resources. The effectiveness of our approach is
validated through a series of extensive experiments.
- Abstract(参考訳): 生成的敵ネットワークは、最近、自己回帰モデルやフローベースモデルよりも優れた神経ボコーディング性能を示した。
本稿では,この成功を条件付き音声生成の他のタスクにも拡張できることを示す。
特に、HiFiボコーダをベースとして、ニューラルボコーダ、帯域幅拡張、音声強調のための新しいHiFi++汎用フレームワークを提案する。
改良されたジェネレータアーキテクチャと単純化されたマルチディスクリミネータトレーニングにより、HiFi++は、メモリや計算資源を著しく削減しつつ、これらのタスクにおける最先端のタスクと同等の性能を発揮することを示す。
本手法の有効性は, 様々な実験により検証された。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks [0.0]
音声帯域拡張は,デジタルアプリケーションにおける音質と知覚性の向上に不可欠である。
本稿では,カスケードシステムとは異なり,高忠実性生成対向ネットワークを用いた新しい手法を提案する。
提案手法は,様々な帯域幅のアップサンプリング比を,音声帯域幅拡張アプリケーションに特化して設計された単一統一モデルに統合する。
論文 参考訳(メタデータ) (2024-07-26T07:54:47Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis [4.689359813220365]
本稿では,WOLONetという,効果的で軽量なニューラルボコーダを提案する。
本稿では,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
論文 参考訳(メタデータ) (2022-06-20T17:58:52Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - End-to-End Audio Strikes Back: Boosting Augmentations Towards An
Efficient Audio Classification Network [3.5173697454104844]
本稿では,強力な一般化能力を有する効率的なエンドツーエンドネットワークを提案する。
本手法の有効性とロバスト性を示すため,様々な音響分類セットの実験を行った。
論文 参考訳(メタデータ) (2022-04-25T07:50:45Z) - HiFi-GAN: Generative Adversarial Networks for Efficient and High
Fidelity Speech Synthesis [12.934180951771596]
効率と高忠実度音声合成を実現するHiFi-GANを提案する。
単一話者データセットの主観的人的評価は,提案手法が人的品質と類似性を示すことを示している。
HiFi-GANの小さなフットプリントバージョンは、CPU上のリアルタイムよりも13.4倍高速なサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-12T12:33:43Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization [48.55126268721948]
本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
論文 参考訳(メタデータ) (2020-05-18T08:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。