Fugu-MT 論文翻訳(概要): MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

論文の概要: MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

arxiv url: http://arxiv.org/abs/2309.08730v1
Date: Fri, 15 Sep 2023 19:31:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 19:43:47.692166
Title: MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response
Title（参考訳）: MusiLingo: 音楽キャプションとクエリ応答のための事前学習言語モデルによる音楽とテキストのブリッジ
Authors: Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu Chen, Wenhao Huang, Emmanouil Benetos
Abstract要約: MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
参考スコア（独自算出の注目度）: 44.58063693945076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown immense potential in multimodal applications, yet the convergence of textual and musical domains remains relatively unexplored. To address this gap, we present MusiLingo, a novel system for music caption generation and music-related query responses. MusiLingo employs a single projection layer to align music representations from the pre-trained frozen music audio model MERT with the frozen LLaMA language model, bridging the gap between music audio and textual contexts. We train it on an extensive music caption dataset and fine-tune it with instructional data. Due to the scarcity of high-quality music Q&A datasets, we created the MusicInstruct (MI) dataset from MusicCaps, tailored for open-ended music inquiries. Empirical evaluations demonstrate its competitive performance in generating music captions and composing music-related Q&A pairs. Our introduced dataset enables notable advancements beyond previous ones.
Abstract（参考訳）: 大規模言語モデル(llm)はマルチモーダルアプリケーションにおいて大きな可能性を示しているが、テキストと音楽の領域の収束は比較的未開拓である。このギャップに対処するために,音楽キャプション生成と音楽関連クエリ応答のための新しいシステムMusiLingoを提案する。 MusiLingoは、事前訓練された冷凍音楽オーディオモデルMERTと冷凍LLaMA言語モデルとの整列のために単一のプロジェクション層を使用し、音楽オーディオとテキストコンテキストのギャップを埋める。広範な音楽キャプションデータセットでトレーニングし、指導データで微調整する。高品質な音楽Q&Aデータセットが不足しているため、私たちはMusicCapsからMusicInstruct(MI)データセットを作成しました。音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。我々の導入したデータセットは、以前のものを超える顕著な進歩を可能にする。

関連論文リスト

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文参考訳（メタデータ） (2026-01-07T14:40:48Z)
SongSage: A Large Musical Language Model with Lyric Generative Pre-training [69.52790104805794]
SongSageは、多種多様な歌詞中心のインテリジェンスを備えた大規模な音楽モデルである。 SongSageは歌詞中心の知識を強く理解し、ゼロショットプレイリストのレコメンデーションのためにユーザークエリを書き直し、歌詞を効果的に生成し、継続し、7つの追加機能で巧みに実行する。
論文参考訳（メタデータ） (2026-01-03T10:54:37Z)
Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文参考訳（メタデータ） (2025-11-13T13:21:09Z)
MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models [46.761820987130065]
MusiXQAは、音楽シート理解におけるMLLMの評価と進歩のための、最初の包括的なデータセットである。我々は、データセットに微調整されたMLLMであるPhi-3-MusiXを開発し、GPT法よりも大きな性能向上を実現した。
論文参考訳（メタデータ） (2025-06-28T20:46:47Z)
Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文参考訳（メタデータ） (2025-02-10T17:41:57Z)
Can Impressions of Music be Extracted from Thumbnail Images? [20.605634973566573]
音楽データとそれに対応する自然言語記述からなる大規模な公開データセットは、音楽キャプションとして知られています。音楽サムネイル画像から推定される非音楽的側面を取り入れた音楽キャプションデータを生成する手法を提案する。非音楽的側面を含む約360,000字幕のデータセットを作成し,音楽検索モデルを訓練した。
論文参考訳（メタデータ） (2025-01-05T11:51:38Z)
Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文参考訳（メタデータ） (2024-10-04T09:33:34Z)
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文参考訳（メタデータ） (2024-07-30T16:43:24Z)
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation [18.12051302437043]
本稿では,時間的構成による生成的拡張から学習することで,微粒化音楽理解機能を備えたモデルを提案する。既存の音楽キャプションデータセットと大言語モデル(LLM)を利用して、フル長曲の詳細な音楽キャプションを構造記述と時間境界で合成する。
論文参考訳（メタデータ） (2024-07-29T22:53:32Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-02-27T16:15:28Z)
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning [37.76488341368786]
テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットが不足しているため、大きな障害に直面している。音楽関連質問に答え、音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。本稿では,既存の音声キャプションデータセットから質問応答ペアを生成する手法を提案し,MusicQAデータセットを紹介する。
論文参考訳（メタデータ） (2023-08-22T08:43:33Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文参考訳（メタデータ） (2022-08-25T16:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。