論文の概要: Simple and Controllable Music Generation
- arxiv url: http://arxiv.org/abs/2306.05284v3
- Date: Tue, 30 Jan 2024 04:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:31:07.205077
- Title: Simple and Controllable Music Generation
- Title(参考訳): シンプルで制御可能な音楽生成
- Authors: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel
Synnaeve, Yossi Adi, Alexandre D\'efossez
- Abstract要約: MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
- 参考スコア(独自算出の注目度): 94.61958781346176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the task of conditional music generation. We introduce MusicGen, a
single Language Model (LM) that operates over several streams of compressed
discrete music representation, i.e., tokens. Unlike prior work, MusicGen is
comprised of a single-stage transformer LM together with efficient token
interleaving patterns, which eliminates the need for cascading several models,
e.g., hierarchically or upsampling. Following this approach, we demonstrate how
MusicGen can generate high-quality samples, both mono and stereo, while being
conditioned on textual description or melodic features, allowing better
controls over the generated output. We conduct extensive empirical evaluation,
considering both automatic and human studies, showing the proposed approach is
superior to the evaluated baselines on a standard text-to-music benchmark.
Through ablation studies, we shed light over the importance of each of the
components comprising MusicGen. Music samples, code, and models are available
at https://github.com/facebookresearch/audiocraft
- Abstract(参考訳): 我々は条件付き音楽生成の課題に取り組む。
我々は,圧縮された離散的音楽表現,すなわちトークンのストリームを運用する単一言語モデル (lm) である musicgen を紹介する。
以前の作業とは異なり、MusicGenはシングルステージトランスフォーマーLMと効率的なトークンインターリーブパターンで構成されており、階層化やアップサンプリングといったいくつかのモデルをカスケードする必要がなくなる。
このアプローチに従うと、MusicGenがモノとステレオの両方の高品質なサンプルを生成しながら、テキスト記述やメロディ的な特徴を条件にすることで、生成した出力をよりよく制御できることを示す。
提案手法が標準テキストから音楽へのベンチマークで評価されたベースラインよりも優れていることを示す。
アブレーション研究を通じて,MusicGenを構成する各コンポーネントの重要性に光を当てた。
音楽サンプル、コード、モデルはhttps://github.com/facebookresearch/audiocraftで入手できる。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
論文 参考訳(メタデータ) (2023-10-26T05:24:38Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。