論文の概要: MusicLM: Generating Music From Text
- arxiv url: http://arxiv.org/abs/2301.11325v1
- Date: Thu, 26 Jan 2023 18:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 12:40:10.880676
- Title: MusicLM: Generating Music From Text
- Title(参考訳): MusicLM: テキストから音楽を生成する
- Authors: Andrea Agostinelli, Timo I. Denk, Zal\'an Borsos, Jesse Engel, Mauro
Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco
Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank
- Abstract要約: テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。
MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。
実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
- 参考スコア(独自算出の注目度): 24.465880798449735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MusicLM, a model generating high-fidelity music from text
descriptions such as "a calming violin melody backed by a distorted guitar
riff". MusicLM casts the process of conditional music generation as a
hierarchical sequence-to-sequence modeling task, and it generates music at 24
kHz that remains consistent over several minutes. Our experiments show that
MusicLM outperforms previous systems both in audio quality and adherence to the
text description. Moreover, we demonstrate that MusicLM can be conditioned on
both text and a melody in that it can transform whistled and hummed melodies
according to the style described in a text caption. To support future research,
we publicly release MusicCaps, a dataset composed of 5.5k music-text pairs,
with rich text descriptions provided by human experts.
- Abstract(参考訳): 本稿では,「ゆがんだギターリフに裏打ちされた穏やかなヴァイオリンメロディ」などのテキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。
MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストし、数分間連続した24kHzの音楽を生成する。
実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
さらに,テキストキャプションに記述されたスタイルに応じて,口笛やハンメドメロディを変換できるという点で,テキストとメロディの両方でmusiclmが条件付け可能であることを実証する。
今後の研究を支援するため、私たちは5.5kの音楽テキストペアからなるデータセットであるMusicCapsを公開しました。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation [18.12051302437043]
本稿では,時間的構成による生成的拡張から学習することで,微粒化音楽理解機能を備えたモデルを提案する。
既存の音楽キャプションデータセットと大言語モデル(LLM)を利用して、フル長曲の詳細な音楽キャプションを構造記述と時間境界で合成する。
論文 参考訳(メタデータ) (2024-07-29T22:53:32Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MidiCaps: A large-scale MIDI dataset with text captions [6.806050368211496]
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
論文 参考訳(メタデータ) (2024-06-04T12:21:55Z) - SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。