論文の概要: MusiLingo: Bridging Music and Text with Pre-trained Language Models for
Music Captioning and Query Response
- arxiv url: http://arxiv.org/abs/2309.08730v2
- Date: Thu, 12 Oct 2023 21:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:05:07.735275
- Title: MusiLingo: Bridging Music and Text with Pre-trained Language Models for
Music Captioning and Query Response
- Title(参考訳): MusiLingo: 音楽キャプションとクエリ応答のための事前学習言語モデルによる音楽とテキストのブリッジ
- Authors: Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu
Chen, Wenhao Huang, Emmanouil Benetos
- Abstract要約: MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
- 参考スコア(独自算出の注目度): 44.58063693945076
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown immense potential in multimodal
applications, yet the convergence of textual and musical domains remains
relatively unexplored. To address this gap, we present MusiLingo, a novel
system for music caption generation and music-related query responses.
MusiLingo employs a single projection layer to align music representations from
the pre-trained frozen music audio model MERT with the frozen Vicuna-7B
language model (an adaption of LLaMA), bridging the gap between music audio and
textual contexts. We train it on an extensive music caption dataset and
fine-tune it with instructional data. Due to the scarcity of high-quality music
Q\&A datasets, we created the Music Instruct (MI) dataset from captions in the
MusicCaps datasets, tailored for open-ended music inquiries. Empirical
evaluations demonstrate its competitive performance in generating music
captions and composing music-related Q&A pairs.
- Abstract(参考訳): 大規模言語モデル(llm)はマルチモーダルアプリケーションにおいて大きな可能性を示しているが、テキストと音楽の領域の収束は比較的未開拓である。
このギャップに対処するために,音楽キャプション生成と音楽関連クエリ応答のための新しいシステムMusiLingoを提案する。
MusiLingoは、事前訓練された冷凍音楽オーディオモデルMERTから、凍結したVicuna-7B言語モデル(LLaMAの適応)に、単一のプロジェクション層を使用して、音楽オーディオとテキストコンテキストのギャップを埋める。
広範な音楽キャプションデータセットでトレーニングし、指導データで微調整する。
高品質な音楽Q\&Aデータセットが不足しているため、我々はMusicCapsデータセットのキャプションからMusic Instruct(MI)データセットを作成しました。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
関連論文リスト
- SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - LLark: A Multimodal Instruction-Following Language Model for Music [8.264496582261478]
音楽にはユニークで複雑な構造があり、専門家と既存のAIシステムの両方が理解することが難しい。
音韻理解のための命令調整型マルチモーダルモデルであるLLarkを提案する。
論文 参考訳(メタデータ) (2023-10-11T03:12:47Z) - Music Understanding LLaMA: Advancing Text-to-Music Generation with
Question Answering and Captioning [37.76488341368786]
テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットが不足しているため、大きな障害に直面している。
音楽関連質問に答え、音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。
本稿では,既存の音声キャプションデータセットから質問応答ペアを生成する手法を提案し,MusicQAデータセットを紹介する。
論文 参考訳(メタデータ) (2023-08-22T08:43:33Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。