論文の概要: Long-form music generation with latent diffusion
- arxiv url: http://arxiv.org/abs/2404.10301v1
- Date: Tue, 16 Apr 2024 06:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:02:32.361879
- Title: Long-form music generation with latent diffusion
- Title(参考訳): 潜時拡散による長周期音楽生成
- Authors: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons,
- Abstract要約: 時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。
我々は,音質と即時アライメントの指標に基づいて最先端の世代を入手し,主観的テストにより,コヒーレントな構造を持つ完全長の音楽を生成することを明らかにした。
- 参考スコア(独自算出の注目度): 8.799402694043955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.
- Abstract(参考訳): 音楽生成モデルは近年大きな進歩を遂げているが、完全長の楽曲をコヒーレントな音楽構造で制作するには至っていない。
時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。
本モデルは,低サンプリング連続潜時表現(21.5Hz)で動作する拡散変圧器からなる。
音質と即時アライメントの指標に基づいて最先端の世代を取得し、主観的なテストにより、コヒーレントな構造を持つフル長の音楽を生成することが明らかになった。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Fast Timing-Conditioned Latent Audio Diffusion [9.413937099098423]
安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。
これは2つの公開テキスト・トゥ・ミュージック・アンド・オーディオ・ベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオ・サウンドで音楽を生成することができる。
論文 参考訳(メタデータ) (2024-02-07T13:23:25Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Long-Term Rhythmic Video Soundtracker [37.082768654951465]
我々は、長期条件波形を合成する新しいフレームワーク、LORIS(Long-Term Rhythmic Video Soundtracker)を提案する。
モデルの適用性をダンスからフロアエクササイズやフィギュアスケートといった複数のスポーツシナリオに拡張する。
我々のモデルは、最先端の音楽的品質とリズム対応を備えた長期的なサウンドトラックを生成する。
論文 参考訳(メタデータ) (2023-05-02T10:58:29Z) - Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。
具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文 参考訳(メタデータ) (2023-01-27T14:52:53Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - MP3net: coherent, minute-long music generation from raw audio with a
simple convolutional GAN [0.0]
我々は、長距離コヒーレンスで高品質のオーディオサンプルを生成する深い畳み込みGANを紹介します。
人間の耳の聴覚マスキングと心理音響知覚の限界を利用して、真の分布を広げる。
私たちは、単一のクラウドTPUv2で250hのトレーニング後に22kHzのサンプルレートで95sのステレオトラックを作成するためにMP3netを使用します。
論文 参考訳(メタデータ) (2021-01-12T22:37:21Z) - Incorporating Music Knowledge in Continual Dataset Augmentation for
Music Generation [69.06413031969674]
Aug-Genは、リソース制約のあるドメインでトレーニングされた任意の音楽生成システムに対するデータセット拡張の方法である。
我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。