Fugu-MT 論文翻訳(概要): Long-form music generation with latent diffusion

論文の概要: Long-form music generation with latent diffusion

arxiv url: http://arxiv.org/abs/2404.10301v1
Date: Tue, 16 Apr 2024 06:09:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:02:32.361879
Title: Long-form music generation with latent diffusion
Title（参考訳）: 潜時拡散による長周期音楽生成
Authors: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons,
Abstract要約: 時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。我々は,音質と即時アライメントの指標に基づいて最先端の世代を入手し,主観的テストにより,コヒーレントな構造を持つ完全長の音楽を生成することを明らかにした。
参考スコア（独自算出の注目度）: 8.799402694043955
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.
Abstract（参考訳）: 音楽生成モデルは近年大きな進歩を遂げているが、完全長の楽曲をコヒーレントな音楽構造で制作するには至っていない。時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。本モデルは,低サンプリング連続潜時表現(21.5Hz)で動作する拡散変圧器からなる。音質と即時アライメントの指標に基づいて最先端の世代を取得し、主観的なテストにより、コヒーレントな構造を持つフル長の音楽を生成することが明らかになった。

関連論文リスト

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文参考訳（メタデータ） (2026-01-07T14:40:48Z)
YuE: Scaling Open Foundation Models for Long-Form Music Generation [134.54174498094565]
YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
論文参考訳（メタデータ） (2025-03-11T17:26:50Z)
InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文参考訳（メタデータ） (2025-02-28T09:58:25Z)
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文参考訳（メタデータ） (2024-10-27T15:35:41Z)
CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation [17.41880273107978]
Contrastive Long-form Language-Audio Pretraining (textbfCoLLAP) 入力音声(最大5分)と言語記述(250語)の認識窓を著しく拡張するコントラストロングフォーム言語事前学習(textbfCoLLAP)を提案する。大規模なAudioSetトレーニングデータセットから51.3Kのオーディオテキストペアを収集し,平均オーディオ長が288秒に達する。
論文参考訳（メタデータ） (2024-10-03T07:46:51Z)
Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。 48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文参考訳（メタデータ） (2024-06-12T16:34:26Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
Fast Timing-Conditioned Latent Audio Diffusion [8.774733281142021]
安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。これは2つの公開テキスト・トゥ・ミュージック・アンド・オーディオ・ベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオ・サウンドで音楽を生成することができる。
論文参考訳（メタデータ） (2024-02-07T13:23:25Z)
Controllable Music Production with Diffusion Models and Guidance Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文参考訳（メタデータ） (2023-11-01T16:01:01Z)
V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文参考訳（メタデータ） (2023-05-11T06:26:41Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文参考訳（メタデータ） (2023-01-27T14:52:53Z)
AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文参考訳（メタデータ） (2022-09-07T13:40:08Z)
Incorporating Music Knowledge in Continual Dataset Augmentation for Music Generation [69.06413031969674]
Aug-Genは、リソース制約のあるドメインでトレーニングされた任意の音楽生成システムに対するデータセット拡張の方法である。我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。
論文参考訳（メタデータ） (2020-06-23T21:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。