論文の概要: Jukebox: A Generative Model for Music
- arxiv url: http://arxiv.org/abs/2005.00341v1
- Date: Thu, 30 Apr 2020 09:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:38:33.211905
- Title: Jukebox: A Generative Model for Music
- Title(参考訳): Jukebox: 音楽のジェネレーティブモデル
- Authors: Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec
Radford, Ilya Sutskever
- Abstract要約: Jukebox(ジュークボックス)は、生のオーディオドメインで歌いながら音楽を生成するモデルである。
複数スケールのVQ-VAEを用いて生音声の長いコンテキストに取り組み,それを離散コードに圧縮する。
複数分間のコヒーレンスで高忠実で多様な曲を生成できることを示す。
- 参考スコア(独自算出の注目度): 75.242747436901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Jukebox, a model that generates music with singing in the raw
audio domain. We tackle the long context of raw audio using a multi-scale
VQ-VAE to compress it to discrete codes, and modeling those using
autoregressive Transformers. We show that the combined model at scale can
generate high-fidelity and diverse songs with coherence up to multiple minutes.
We can condition on artist and genre to steer the musical and vocal style, and
on unaligned lyrics to make the singing more controllable. We are releasing
thousands of non cherry-picked samples at https://jukebox.openai.com, along
with model weights and code at https://github.com/openai/jukebox
- Abstract(参考訳): 生のオーディオ領域で歌いながら音楽を生成するモデルであるJukeboxを紹介する。
我々は,マルチスケールvq-vaeを用いた生オーディオの長大な文脈に取り組み,それらを離散符号に圧縮し,自己回帰トランスフォーマを用いてモデル化する。
大規模に組み合わせたモデルでは、コヒーレンスが最大で数分間で高い忠実度と多様な曲を生成できることが示される。
アーティストやジャンルを条件として、音楽やボーカルのスタイルを操り、アンアライメントの歌詞で歌をコントロール可能にします。
私たちは、https://jukebox.openai.comで何千もの非桜のサンプルと、https://github.com/openai/jukeboxでモデルウェイトとコードをリリースしています。
関連論文リスト
- SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - SaMoye: Zero-shot Singing Voice Conversion Model Based on Feature Disentanglement and Enhancement [14.890331617779546]
歌唱音声変換(SVC)は、歌唱者の声を参照音声から他の歌唱者の声に変換し、本来の意味を保ちながら行うことを目的としている。
そこで我々は,歌唱を人間と非人間の音色に変換できる,オープンソースの初の高品質ゼロショットSVCモデルSaMoyeを提案する。
論文 参考訳(メタデータ) (2024-07-10T15:00:08Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - VampNet: Music Generation via Masked Acoustic Token Modeling [11.893826325744055]
VampNetは、音楽合成、圧縮、塗装、変奏のためのマスク付き音響トークンモデリング手法である。
VampNetは非自己回帰的であり、フォワードパス内のすべてのトークンに対応する双方向トランスフォーマーアーキテクチャを活用する。
VampNetを様々な方法で促すことで、音楽圧縮、インペイント、アウトペイント、継続、変化を伴うループリングといったタスクに適用できることを示します。
論文 参考訳(メタデータ) (2023-07-10T16:42:03Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - SingSong: Generating musical accompaniments from singing [35.819589427197464]
入力ボーカルに付随する楽器音楽を生成するシステムであるSingSongについて述べる。
同じ音声入力と比較して、リスナーはSingSongが生成したインストゥルメンタルに対して重要な嗜好を表現した。
論文 参考訳(メタデータ) (2023-01-30T04:53:23Z) - Msanii: High Fidelity Music Synthesis on a Shoestring Budget [0.0]
我々は,高忠実度音楽の効率的な合成のための新しい拡散モデルであるMsaniiを提案する。
本モデルでは,メルスペクトログラムの合成,拡散モデルの生成能力,ニューラルヴォコーダのヴォコーダのヴォコーダ機能を組み合わせた。
論文 参考訳(メタデータ) (2023-01-16T15:18:26Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。