論文の概要: Msanii: High Fidelity Music Synthesis on a Shoestring Budget
- arxiv url: http://arxiv.org/abs/2301.06468v1
- Date: Mon, 16 Jan 2023 15:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:51:01.441405
- Title: Msanii: High Fidelity Music Synthesis on a Shoestring Budget
- Title(参考訳): msanii: 靴ひも予算による高忠実度音楽合成
- Authors: Kinyugo Maina
- Abstract要約: 我々は,高忠実度音楽の効率的な合成のための新しい拡散モデルであるMsaniiを提案する。
本モデルでは,メルスペクトログラムの合成,拡散モデルの生成能力,ニューラルヴォコーダのヴォコーダのヴォコーダ機能を組み合わせた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Msanii, a novel diffusion-based model for
synthesizing long-context, high-fidelity music efficiently. Our model combines
the expressiveness of mel spectrograms, the generative capabilities of
diffusion models, and the vocoding capabilities of neural vocoders. We
demonstrate the effectiveness of Msanii by synthesizing tens of seconds (190
seconds) of stereo music at high sample rates (44.1 kHz) without the use of
concatenative synthesis, cascading architectures, or compression techniques. To
the best of our knowledge, this is the first work to successfully employ a
diffusion-based model for synthesizing such long music samples at high sample
rates. Our demo can be found https://kinyugo.github.io/msanii-demo and our code
https://github.com/Kinyugo/msanii .
- Abstract(参考訳): 本稿では,長文高忠実度音楽の合成を効率的に行う新しい拡散モデルであるMsaniiを提案する。
本モデルでは,メルスペクトログラムの表現性,拡散モデルの生成能力,ニューラルヴォコーダの音声符号化能力を組み合わせた。
合成, カスケード, 圧縮技術を用いることなく, 高サンプリングレート (44.1 kHz) で数秒 (190秒) のステレオ音楽を合成することで, Msaniiの有効性を実証した。
我々の知る限りでは、このような長い音楽サンプルを高いサンプリングレートで合成するために拡散モデルを用いた最初の試みである。
私たちのデモはhttps://kinyugo.github.io/msanii-demoとコードhttps://github.com/Kinyugo/msaniiを参照してください。
関連論文リスト
- Multi-Source Music Generation with Latent Diffusion [7.832209959041259]
マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。
MSLDMは変分オートエンコーダ(VAE)を使用して、各機器のソースを別個の潜在表現にエンコードする。
このアプローチは音楽の総生成と部分生成を大幅に強化する。
論文 参考訳(メタデータ) (2024-09-10T03:41:10Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models [25.966328901566815]
ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-12T01:21:41Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - One Billion Audio Sounds from GPU-enabled Modular Synthesis [5.5022962399775945]
Synth1B1は10億の4秒合成音からなるマルチモーダルオーディオコーパスであり、文献のどのオーディオデータセットよりも100倍大きい。
Synth1B1サンプルは、1つのGPU上でリアルタイム(714MHz)よりも高速なオンザフライ16200xで決定的に生成される。
論文 参考訳(メタデータ) (2021-04-27T00:38:52Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。