Fugu-MT 論文翻訳(概要): MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

論文の概要: MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

arxiv url: http://arxiv.org/abs/2309.08730v2
Date: Thu, 12 Oct 2023 21:28:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 17:05:07.735275
Title: MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response
Title（参考訳）: MusiLingo: 音楽キャプションとクエリ応答のための事前学習言語モデルによる音楽とテキストのブリッジ
Authors: Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu Chen, Wenhao Huang, Emmanouil Benetos
Abstract要約: MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
参考スコア（独自算出の注目度）: 44.58063693945076
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have shown immense potential in multimodal applications, yet the convergence of textual and musical domains remains relatively unexplored. To address this gap, we present MusiLingo, a novel system for music caption generation and music-related query responses. MusiLingo employs a single projection layer to align music representations from the pre-trained frozen music audio model MERT with the frozen Vicuna-7B language model (an adaption of LLaMA), bridging the gap between music audio and textual contexts. We train it on an extensive music caption dataset and fine-tune it with instructional data. Due to the scarcity of high-quality music Q\&A datasets, we created the Music Instruct (MI) dataset from captions in the MusicCaps datasets, tailored for open-ended music inquiries. Empirical evaluations demonstrate its competitive performance in generating music captions and composing music-related Q&A pairs.
Abstract（参考訳）: 大規模言語モデル(llm)はマルチモーダルアプリケーションにおいて大きな可能性を示しているが、テキストと音楽の領域の収束は比較的未開拓である。このギャップに対処するために,音楽キャプション生成と音楽関連クエリ応答のための新しいシステムMusiLingoを提案する。 MusiLingoは、事前訓練された冷凍音楽オーディオモデルMERTから、凍結したVicuna-7B言語モデル(LLaMAの適応)に、単一のプロジェクション層を使用して、音楽オーディオとテキストコンテキストのギャップを埋める。広範な音楽キャプションデータセットでトレーニングし、指導データで微調整する。高品質な音楽Q\&Aデータセットが不足しているため、我々はMusicCapsデータセットのキャプションからMusic Instruct(MI)データセットを作成しました。音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。

関連論文リスト

MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models [46.761820987130065]
MusiXQAは、音楽シート理解におけるMLLMの評価と進歩のための、最初の包括的なデータセットである。我々は、データセットに微調整されたMLLMであるPhi-3-MusiXを開発し、GPT法よりも大きな性能向上を実現した。
論文参考訳（メタデータ） (2025-06-28T20:46:47Z)
Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文参考訳（メタデータ） (2025-02-10T17:41:57Z)
Can Impressions of Music be Extracted from Thumbnail Images? [20.605634973566573]
音楽データとそれに対応する自然言語記述からなる大規模な公開データセットは、音楽キャプションとして知られています。音楽サムネイル画像から推定される非音楽的側面を取り入れた音楽キャプションデータを生成する手法を提案する。非音楽的側面を含む約360,000字幕のデータセットを作成し,音楽検索モデルを訓練した。
論文参考訳（メタデータ） (2025-01-05T11:51:38Z)
Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文参考訳（メタデータ） (2024-10-04T09:33:34Z)
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文参考訳（メタデータ） (2024-07-30T16:43:24Z)
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation [18.12051302437043]
本稿では,時間的構成による生成的拡張から学習することで,微粒化音楽理解機能を備えたモデルを提案する。既存の音楽キャプションデータセットと大言語モデル(LLM)を利用して、フル長曲の詳細な音楽キャプションを構造記述と時間境界で合成する。
論文参考訳（メタデータ） (2024-07-29T22:53:32Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-02-27T16:15:28Z)
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning [37.76488341368786]
テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットが不足しているため、大きな障害に直面している。音楽関連質問に答え、音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。本稿では,既存の音声キャプションデータセットから質問応答ペアを生成する手法を提案し,MusicQAデータセットを紹介する。
論文参考訳（メタデータ） (2023-08-22T08:43:33Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文参考訳（メタデータ） (2022-08-25T16:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。