論文の概要: MP3net: coherent, minute-long music generation from raw audio with a
simple convolutional GAN
- arxiv url: http://arxiv.org/abs/2101.04785v1
- Date: Tue, 12 Jan 2021 22:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:29:46.891499
- Title: MP3net: coherent, minute-long music generation from raw audio with a
simple convolutional GAN
- Title(参考訳): MP3net: 単純な畳み込みGANによる生オーディオからのコヒーレントで微小な音楽生成
- Authors: Korneel van den Broek
- Abstract要約: 我々は、長距離コヒーレンスで高品質のオーディオサンプルを生成する深い畳み込みGANを紹介します。
人間の耳の聴覚マスキングと心理音響知覚の限界を利用して、真の分布を広げる。
私たちは、単一のクラウドTPUv2で250hのトレーニング後に22kHzのサンプルレートで95sのステレオトラックを作成するためにMP3netを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a deep convolutional GAN which leverages techniques from
MP3/Vorbis audio compression to produce long, high-quality audio samples with
long-range coherence. The model uses a Modified Discrete Cosine Transform
(MDCT) data representation, which includes all phase information. Phase
generation is hence integral part of the model. We leverage the auditory
masking and psychoacoustic perception limit of the human ear to widen the true
distribution and stabilize the training process. The model architecture is a
deep 2D convolutional network, where each subsequent generator model block
increases the resolution along the time axis and adds a higher octave along the
frequency axis. The deeper layers are connected with all parts of the output
and have the context of the full track. This enables generation of samples
which exhibit long-range coherence. We use MP3net to create 95s stereo tracks
with a 22kHz sample rate after training for 250h on a single Cloud TPUv2. An
additional benefit of the CNN-based model architecture is that generation of
new songs is almost instantaneous.
- Abstract(参考訳): 本稿では,MP3/Vorbis音声圧縮技術を利用して,長距離コヒーレンスを有する長大な高品質オーディオサンプルを生成する深層畳み込みGANを提案する。
このモデルは、すべての位相情報を含むMDCT(Modified Discrete Cosine Transform)データ表現を使用する。
したがって、位相生成はモデルに不可欠な部分である。
人間の耳の聴覚マスキングと心理音響知覚限界を利用して、真の分布を広げ、トレーニングプロセスを安定化させる。
モデルアーキテクチャは深部2次元畳み込みネットワークであり、各ジェネレータモデルブロックは時間軸に沿って分解能を高め、周波数軸に沿って高いオクターブを追加する。
より深いレイヤは出力のすべての部分に接続され、完全なトラックのコンテキストを持つ。
これにより、長距離コヒーレンスを示すサンプルを生成することができる。
我々はMP3netを使って、1つのクラウドTPUv2で250時間トレーニングした後、サンプルレート22kHzの95sステレオトラックを作成します。
CNNベースのモデルアーキテクチャのさらなる利点は、新しい曲の生成がほぼ瞬時に行われることである。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文 参考訳(メタデータ) (2022-04-14T16:00:32Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。