論文の概要: BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network
- arxiv url: http://arxiv.org/abs/2309.02836v2
- Date: Mon, 25 Mar 2024 03:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:17:47.886366
- Title: BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network
- Title(参考訳): BigVSAN: Slicing Adversarial NetworkによるGANベースのニューラルヴォコーダの強化
- Authors: Takashi Shibuya, Yuhta Takida, Yuki Mitsufuji,
- Abstract要約: 高忠実度音声波形をリアルタイムより高速に合成できるGANベースのボコーダの研究が盛んに行われている。
ほとんどのGANは、特徴空間における実データと偽データとを識別する最適なプロジェクションを得ることができない。
本稿では,ほとんどのGANベースのボコーダが採用している最小二乗GANを,損失関数がSANの要求を満たすように修正する手法を提案する。
- 参考スコア(独自算出の注目度): 16.986061375767488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial network (GAN)-based vocoders have been intensively studied because they can synthesize high-fidelity audio waveforms faster than real-time. However, it has been reported that most GANs fail to obtain the optimal projection for discriminating between real and fake data in the feature space. In the literature, it has been demonstrated that slicing adversarial network (SAN), an improved GAN training framework that can find the optimal projection, is effective in the image generation task. In this paper, we investigate the effectiveness of SAN in the vocoding task. For this purpose, we propose a scheme to modify least-squares GAN, which most GAN-based vocoders adopt, so that their loss functions satisfy the requirements of SAN. Through our experiments, we demonstrate that SAN can improve the performance of GAN-based vocoders, including BigVGAN, with small modifications. Our code is available at https://github.com/sony/bigvsan.
- Abstract(参考訳): 高忠実度音声波形をリアルタイムより高速に合成できるGANベースのボコーダの研究が盛んに行われている。
しかし、ほとんどのGANは、特徴空間における実データと偽データとを識別する最適なプロジェクションを得ることができないことが報告されている。
本報告では, 画像生成作業において, 最適投影を見出すことができる改良型GANトレーニングフレームワークであるスライシング・ディバイサル・ネットワーク(SAN)が有効であることが実証されている。
本稿では,VocodeタスクにおけるSANの有効性について検討する。
そこで本研究では,ほとんどのGANベースのボコーダが採用している最小二乗GANを,損失関数がSANの要求を満たすように修正する手法を提案する。
実験により,SANは,BigVGANを含むGANベースのボコーダの性能を小さな修正で向上させることができることを示した。
私たちのコードはhttps://github.com/sony/bigvsan.comで公開されています。
関連論文リスト
- VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders [14.222389985736422]
VNetは、全帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークである。
VNetモデルは高忠実度音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-08-13T14:00:02Z) - HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform [21.896817015593122]
時間周波数領域に高調波+雑音源フィルタを組み込んだiSTFTNet(HiFTNet)の拡張を提案する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN のどちらよりも優れていた。
私たちの研究は、効率的で高品質なニューラルボコーディングのための新しいベンチマークを設定し、リアルタイムアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2023-09-18T05:30:15Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer [20.667910240515482]
GAN(Generative Adversarial Network)は、ジェネレータと識別器を極小目標で最適化することにより、ターゲットの確率分布を学習する。
本稿では,そのような最適化が,対象分布に近づいた勾配を持つ生成器を実際に提供するかどうかという問題に対処する。
我々は、スライシング対逆ネットワーク(SAN)と呼ばれる新しいGANトレーニングスキームを提案する。
論文 参考訳(メタデータ) (2023-01-30T12:03:44Z) - WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis [4.689359813220365]
本稿では,WOLONetという,効果的で軽量なニューラルボコーダを提案する。
本稿では,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
論文 参考訳(メタデータ) (2022-06-20T17:58:52Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文 参考訳(メタデータ) (2021-11-01T14:12:54Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Variational Autoencoders: A Harmonic Perspective [79.49579654743341]
本研究では,高調波解析の観点から変分オートエンコーダ(VAE)について検討する。
VAEのエンコーダ分散は、VAEエンコーダとデコーダニューラルネットワークによってパラメータ化された関数の周波数内容を制御する。
論文 参考訳(メタデータ) (2021-05-31T10:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。