Fugu-MT 論文翻訳(概要): EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

論文の概要: EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

arxiv url: http://arxiv.org/abs/2402.00892v1
Date: Wed, 31 Jan 2024 03:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:29:57.034130
Title: EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks
Title（参考訳）: EVA-GAN: スケーラブルな生成共振器ネットワークによる各種オーディオ生成の強化
Authors: Shijia Liao, Shiyi Lan, Arun George Zachariah
Abstract要約: スケーラブルな生成共振器ネットワーク(EVA-GAN)による各種オーディオ生成の強化について紹介する。 EVA-GANは、スペクトルおよび高周波再構成における従来の最先端技術よりも大幅に改善され、領域外データ性能の堅牢性も向上する。 44.1kHzオーディオの36,000時間のデータセット、コンテキスト認識モジュール、Human-In-The-Loopアーティファクト計測ツールキットを用いて、モデルを約2億のパラメータに拡張する。
参考スコア（独自算出の注目度）: 5.532843129808958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advent of Large Models marks a new era in machine learning, significantly outperforming smaller models by leveraging vast datasets to capture and synthesize complex patterns. Despite these advancements, the exploration into scaling, especially in the audio generation domain, remains limited, with previous efforts didn't extend into the high-fidelity (HiFi) 44.1kHz domain and suffering from both spectral discontinuities and blurriness in the high-frequency domain, alongside a lack of robustness against out-of-domain data. These limitations restrict the applicability of models to diverse use cases, including music and singing generation. Our work introduces Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), yields significant improvements over previous state-of-the-art in spectral and high-frequency reconstruction and robustness in out-of-domain data performance, enabling the generation of HiFi audios by employing an extensive dataset of 36,000 hours of 44.1kHz audio, a context-aware module, a Human-In-The-Loop artifact measurement toolkit, and expands the model to approximately 200 million parameters. Demonstrations of our work are available at https://double-blind-eva-gan.cc.
Abstract（参考訳）: 大規模モデルの出現は、複雑なパターンをキャプチャし、合成するために巨大なデータセットを活用することによって、より小さなモデルを大きく上回る、機械学習の新しい時代を告げる。これらの進歩にもかかわらず、特にオーディオ生成領域でのスケーリングへの探索は限定的であり、以前の取り組みはハイファイダリティ(HiFi)44.1kHzドメインに拡張されず、周波数領域におけるスペクトルの不連続性と曖昧さの両方に悩まされ、ドメイン外データに対する堅牢性の欠如があった。これらの制限は、音楽や歌声の生成を含む多様なユースケースにモデルの適用性を制限する。 Our work introduces Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), yields significant improvements over previous state-of-the-art in spectral and high-frequency reconstruction and robustness in out-of-domain data performance, enabling the generation of HiFi audios by employing an extensive dataset of 36,000 hours of 44.1kHz audio, a context-aware module, a Human-In-The-Loop artifact measurement toolkit, and expands the model to approximately 200 million parameters. 私たちの作品のデモンストレーションはhttps://double-blind-eva-gan.ccで利用可能です。

関連論文リスト

Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction [63.26850431270348]
離散トークンを使わずに因果言語モデル(LM)を用いた音声生成について検討する。トークンの拡散を利用して、次の連続値トークンの連続分布をモデル化する。本稿では,マスク付き予測を因果的LMフレームワークに組み込んだ,マスク付き次世代予測タスクを提案する。
論文参考訳（メタデータ） (2025-07-14T00:14:54Z)
DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis [4.834986020597738]
変形性周期ネットワークに基づくGAN(DPN-GAN)を提案する。 DPN-GANは、カーネルベースの周期的ReLUアクティベーション機能を導入し、オーディオ生成の周期的バイアスを誘導する。 DPN-GAN小パラメータ (38.67Mパラメータ) とDPN-GAN大パラメータ (124Mパラメータ) の2種類のモデルを訓練した。
論文参考訳（メタデータ） (2025-05-14T02:52:16Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文参考訳（メタデータ） (2025-03-21T23:21:17Z)
Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文参考訳（メタデータ） (2025-02-01T07:42:12Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文参考訳（メタデータ） (2024-06-19T04:57:18Z)
Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。 48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文参考訳（メタデータ） (2024-06-12T16:34:26Z)
Diffusion Models for Audio Restoration [22.385385150594185]
本稿では拡散モデルに基づく音声復元アルゴリズムを提案する。拡散モデルは両世界の長所を組み合わせることができ、オーディオ復元アルゴリズムを設計する機会を提供する。拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。
論文参考訳（メタデータ） (2024-02-15T09:36:36Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文参考訳（メタデータ） (2023-03-02T18:30:16Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)
BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文参考訳（メタデータ） (2022-06-09T17:56:10Z)
Exploring Quality and Generalizability in Parameterized Neural Audio Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文参考訳（メタデータ） (2020-06-10T00:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。