論文の概要: Content-based Controls For Music Large Language Modeling
- arxiv url: http://arxiv.org/abs/2310.17162v1
- Date: Thu, 26 Oct 2023 05:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:04:18.023103
- Title: Content-based Controls For Music Large Language Modeling
- Title(参考訳): 音楽大言語モデリングのためのコンテンツベース制御
- Authors: Liwei Lin, Gus Xia, Junyan Jiang, and Yixiao Zhang
- Abstract要約: Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
本システムは,フレキシブルな音楽変化生成とスタイル転送を実現する。
- 参考スコア(独自算出の注目度): 6.17674772485321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed a rapid growth of large-scale language models in
the domain of music audio. Such models enable end-to-end generation of
higher-quality music, and some allow conditioned generation using text
descriptions. However, the control power of text controls on music is
intrinsically limited, as they can only describe music indirectly through
meta-data (such as singers and instruments) or high-level representations (such
as genre and emotion). We aim to further equip the models with direct and
content-based controls on innate music languages such as pitch, chords and drum
track. To this end, we contribute Coco-Mulla, a content-based control method
for music large language modeling. It uses a parameter-efficient fine-tuning
(PEFT) method tailored for Transformer-based audio models. Experiments show
that our approach achieved high-quality music generation with low-resource
semi-supervised learning, tuning with less than 4% parameters compared to the
original model and training on a small dataset with fewer than 300 songs.
Moreover, our approach enables effective content-based controls, and we
illustrate the control power via chords and rhythms, two of the most salient
features of music audio. Furthermore, we show that by combining content-based
controls and text descriptions, our system achieves flexible music variation
generation and style transfer. Our source codes and demos are available online.
- Abstract(参考訳): 近年、音楽オーディオ分野における大規模言語モデルの急速な成長が見られた。
このようなモデルは高品質な音楽のエンドツーエンド生成を可能にし、一部はテキスト記述による条件付き生成を可能にする。
しかし、音楽におけるテキストコントロールの制御力は、メタデータ(歌手や楽器など)や高レベルの表現(ジャンルや感情など)を通じて音楽を間接的に記述できるため、本質的に制限されている。
我々は、ピッチ、コード、ドラムトラックなどの自然言語に対する直接およびコンテンツベースの制御をモデルにもたらすことを目標としている。
そこで本研究では,音楽大言語モデルのためのコンテンツベース制御手法であるcoco-mullaを提案する。
トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。
実験の結果,低リソースの半教師付き学習による高品質な音楽生成,パラメータの4%未満でのチューニング,300曲未満の小さなデータセットでのトレーニングが可能となった。
さらに,本手法により効果的なコンテンツベース制御が可能となり,コードとリズムによる制御能力,音楽オーディオの最も有能な特徴の2つが説明できる。
さらに,コンテンツベースの制御とテキスト記述を組み合わせることで,柔軟な音楽変動生成とスタイル転送を実現することを示す。
ソースコードとデモはオンラインで公開しています。
関連論文リスト
- ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation
and Editing via Content-based Controls [6.747653154871061]
コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を担っている。
LLM(Large Language Models)は高品質な音楽を生成できることを示しており、自動回帰生成に重点を置いているため、音楽編集タスクにおける有用性を制限している。
そこで本稿では,自動回帰言語モデルによる楽曲の塗り替え作業へのシームレス対応を実現するための,新しい条件付きファインチューニング(PEFT)手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale
Self-supervised Training [75.41299558334129]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。
具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文 参考訳(メタデータ) (2023-01-27T14:52:53Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - MuLan: A Joint Embedding of Music Audio and Natural Language [15.753767984842014]
本稿では,音声アノテーションを自然言語記述に直接リンクする新世代のモデルを提案する。
MuLanは、4400万曲の録音で訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をしている。
論文 参考訳(メタデータ) (2022-08-26T03:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。