Fugu-MT 論文翻訳(概要): Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion

論文の概要: Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion

arxiv url: http://arxiv.org/abs/2301.11757v3
Date: Mon, 23 Oct 2023 20:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 03:20:09.469275
Title: Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion
Title（参考訳）: Mo\^usai: 長期遅延拡散によるテキスト・音楽生成
Authors: Flavio Schneider, Ojasv Kamal, Zhijing Jin, Bernhard Sch\"olkopf
Abstract要約: 我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
参考スコア（独自算出の注目度）: 27.567536688166776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have seen the rapid development of large generative models for text; however, much less research has explored the connection between text and another "language" of communication -- music. Music, much like text, can convey emotions, stories, and ideas, and has its own unique structure and syntax. In our work, we bridge text and music via a text-to-music generation model that is highly efficient, expressive, and can handle long-term structure. Specifically, we develop Mo\^usai, a cascading two-stage latent diffusion model that can generate multiple minutes of high-quality stereo music at 48kHz from textual descriptions. Moreover, our model features high efficiency, which enables real-time inference on a single consumer GPU with a reasonable speed. Through experiments and property analyses, we show our model's competence over a variety of criteria compared with existing music generation models. Lastly, to promote the open-source culture, we provide a collection of open-source libraries with the hope of facilitating future work in the field. We open-source the following: Codes: https://github.com/archinetai/audio-diffusion-pytorch; music samples for this paper: http://bit.ly/44ozWDH; all music samples for all models: https://bit.ly/audio-diffusion.
Abstract（参考訳）: 近年、テキストのための大規模な生成モデルが急速に発展してきたが、テキストと別の「言語」コミュニケーション(音楽)との関係について研究する研究は少なくなっている。音楽はテキストによく似ているが、感情、物語、アイデアを伝えることができ、独自の構造と構文を持っている。本研究は,テキスト・音楽生成モデルを用いてテキスト・音楽のブリッジを行い,高効率で表現力があり,長期的構造を扱えることを示す。具体的には,テキスト記述から48khzで数分間の高音質ステレオ音楽を生成できる2段階の潜在拡散モデルであるmo\^usaiを開発した。さらに,本モデルでは高効率を特徴とし,単一のコンシューマGPU上で適切な速度でリアルタイムな推論を可能にする。実験と特性分析により,既存の音楽生成モデルと比較して,様々な基準を満たしたモデルの能力を示す。最後に,オープンソース文化を促進するため,オープンソースライブラリのコレクションを提供し,今後の活動を促進することを期待する。 Codes: https://github.com/archinetai/audio-diffusion-pytorch; この論文の音楽サンプル: http://bit.ly/44ozWDH; すべてのモデルの音楽サンプル: https://bit.ly/audio-diffusion。

関連論文リスト

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文参考訳（メタデータ） (2024-10-27T15:35:41Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
論文参考訳（メタデータ） (2023-10-26T05:24:38Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文参考訳（メタデータ） (2023-02-09T06:27:09Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
ArchiSound: Audio Generation with Diffusion [0.0]
本研究では,音声生成のための拡散モデルの可能性について検討する。重畳した1次元U-Netを用いたテキスト条件付き潜在音声拡散手法を提案する。各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に取り組みます。
論文参考訳（メタデータ） (2023-01-30T20:23:26Z)
Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文参考訳（メタデータ） (2022-08-25T16:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。