論文の概要: Music Understanding LLaMA: Advancing Text-to-Music Generation with
Question Answering and Captioning
- arxiv url: http://arxiv.org/abs/2308.11276v1
- Date: Tue, 22 Aug 2023 08:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:29:26.533367
- Title: Music Understanding LLaMA: Advancing Text-to-Music Generation with
Question Answering and Captioning
- Title(参考訳): music understanding llama: 質問応答とキャプションによるテキスト・ツー・ミュージック生成の進歩
- Authors: Shansong Liu, Atin Sakkeer Hussain, Chenshuo Sun, Ying Shan
- Abstract要約: テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットが不足しているため、大きな障害に直面している。
音楽関連質問に答え、音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。
本稿では,既存の音声キャプションデータセットから質問応答ペアを生成する手法を提案し,MusicQAデータセットを紹介する。
- 参考スコア(独自算出の注目度): 37.76488341368786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-music generation (T2M-Gen) faces a major obstacle due to the scarcity
of large-scale publicly available music datasets with natural language
captions. To address this, we propose the Music Understanding LLaMA (MU-LLaMA),
capable of answering music-related questions and generating captions for music
files. Our model utilizes audio representations from a pretrained MERT model to
extract music features. However, obtaining a suitable dataset for training the
MU-LLaMA model remains challenging, as existing publicly accessible audio
question answering datasets lack the necessary depth for open-ended music
question answering. To fill this gap, we present a methodology for generating
question-answer pairs from existing audio captioning datasets and introduce the
MusicQA Dataset designed for answering open-ended music-related questions. The
experiments demonstrate that the proposed MU-LLaMA model, trained on our
designed MusicQA dataset, achieves outstanding performance in both music
question answering and music caption generation across various metrics,
outperforming current state-of-the-art (SOTA) models in both fields and
offering a promising advancement in the T2M-Gen research field.
- Abstract(参考訳): テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットの不足により大きな障害に直面している。
そこで我々は,音楽関連質問に答え,音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。
本モデルは,事前学習したMERTモデルから音声表現を用いて楽曲の特徴を抽出する。
しかし、MU-LLaMAモデルのトレーニングに適したデータセットを得るには、既存の公開音声質問応答データセットには、オープンエンド音楽質問応答に必要な深さが欠けているため、依然として困難である。
このギャップを埋めるために,既存の音声キャプションデータセットから質問応答ペアを生成する手法と,オープンエンドな音楽関連質問に回答するためのmusicqaデータセットを提案する。
実験により,提案したMU-LLaMAモデルは,設計したMusicQAデータセットに基づいて,音楽質問応答と音楽キャプション生成の両方において優れた性能を達成し,両分野の最先端(SOTA)モデルより優れ,T2M-Gen研究分野において有望な進歩をもたらすことを示した。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing [3.3162176082220975]
高品質な3次元モーションキャプチャーデータ、アライメント音声記録、ピッチ、ビート、フレーズ、動的、調音、ハーモニーを含むMOSA(Music mOtion with Semantic )データセットを23人のプロミュージシャンによる742のプロ音楽演奏に対して提示する。
私たちの知る限り、これはこれまでのノートレベルのアノテーションを備えた、最大のクロスモーダルな音楽データセットです。
論文 参考訳(メタデータ) (2024-06-10T15:37:46Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Late multimodal fusion for image and audio music transcription [0.0]
マルチモーダル画像とオーディオ音楽の書き起こしは、画像とオーディオのモダリティによって伝達される情報を効果的に組み合わせるという課題を含む。
エンドツーエンドのOMRシステムとAMTシステムに関する仮説を,初めてマージするために,4つの組み合わせのアプローチについて検討した。
4つの戦略のうちの2つは、対応する単調な標準認識フレームワークを著しく改善することを検討した。
論文 参考訳(メタデータ) (2022-04-06T20:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。