論文の概要: LLark: A Multimodal Instruction-Following Language Model for Music
- arxiv url: http://arxiv.org/abs/2310.07160v2
- Date: Thu, 8 Feb 2024 21:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:17:27.965196
- Title: LLark: A Multimodal Instruction-Following Language Model for Music
- Title(参考訳): LLark: 音楽のためのマルチモーダル命令追従言語モデル
- Authors: Josh Gardner, Simon Durand, Daniel Stoller, Rachel M. Bittner
- Abstract要約: 音楽にはユニークで複雑な構造があり、専門家と既存のAIシステムの両方が理解することが難しい。
音韻理解のための命令調整型マルチモーダルモデルであるLLarkを提案する。
- 参考スコア(独自算出の注目度): 8.264496582261478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music has a unique and complex structure which is challenging for both expert
humans and existing AI systems to understand, and presents unique challenges
relative to other forms of audio. We present LLark, an instruction-tuned
multimodal model for \emph{music} understanding. We detail our process for
dataset creation, which involves augmenting the annotations of diverse
open-source music datasets and converting them to a unified instruction-tuning
format. We propose a multimodal architecture for LLark, integrating a
pretrained generative model for music with a pretrained language model. In
evaluations on three types of tasks (music understanding, captioning,
reasoning), we show that LLark matches or outperforms existing baselines in
music understanding, and that humans show a high degree of agreement with its
responses in captioning and reasoning tasks. LLark is trained entirely from
open-source music data and models, and we make our training code available
along with the release of this paper. Additional results and audio examples are
at https://bit.ly/llark, and our source code is available at
https://github.com/spotify-research/llark .
- Abstract(参考訳): 音楽は独特で複雑な構造を持ち、熟練した人間と既存のaiシステムの両方にとって理解が難しい。
本稿では,emph{music}理解のための命令調整型マルチモーダルモデルであるllarkを提案する。
さまざまなオープンソース音楽データセットのアノテーションを増補し、それらを統一的な命令調整形式に変換するデータセット作成プロセスについて詳述する。
LLarkのためのマルチモーダルアーキテクチャを提案し、事前学習された言語モデルと事前学習された音楽生成モデルを統合する。
3種類のタスク(音楽理解,キャプション,推論)の評価において,LLarkは既存の音楽理解のベースラインと一致し,より優れており,人間はキャプションや推論タスクにおける応答と高い一致を示した。
LLarkは、オープンソースの音楽データとモデルから完全にトレーニングされています。
追加の結果とオーディオのサンプルはhttps://bit.ly/llarkで、ソースコードはhttps://github.com/spotify-research/llarkで利用可能です。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
MozartのTouchは、マルチモーダルキャプションモジュール、LLM (Large Language Model) Understanding & Bridging Module、Music Generation Moduleの3つの主要コンポーネントで構成されている。
従来のアプローチとは異なり、MozartのTouchはトレーニングや微調整を必要とせず、透明で解釈可能なプロンプトを通じて効率と透明性を提供する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。