論文の概要: LLark: A Multimodal Foundation Model for Music
- arxiv url: http://arxiv.org/abs/2310.07160v1
- Date: Wed, 11 Oct 2023 03:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:31:04.412041
- Title: LLark: A Multimodal Foundation Model for Music
- Title(参考訳): LLark: 音楽のためのマルチモーダル基礎モデル
- Authors: Josh Gardner, Simon Durand, Daniel Stoller, Rachel M. Bittner
- Abstract要約: 音楽理解のための命令調整型マルチモーダルモデルであるLLarkを提案する。
我々は,音楽理解のためのゼロショット一般化において,モデルが既存のベースラインと一致しているか,あるいは上回っていることを示す。
この論文のリリースとともに、トレーニングコードを利用可能にしています。
- 参考スコア(独自算出の注目度): 8.264496582261478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music has a unique and complex structure which is challenging for both expert
humans and existing AI systems to understand, and presents unique challenges
relative to other forms of audio. We present LLark, an instruction-tuned
multimodal model for music understanding. We detail our process for dataset
creation, which involves augmenting the annotations of diverse open-source
music datasets and converting them to a unified instruction-tuning format. We
propose a multimodal architecture for LLark, integrating a pretrained
generative model for music with a pretrained language model. In evaluations on
three types of tasks (music understanding, captioning, and reasoning), we show
that our model matches or outperforms existing baselines in zero-shot
generalization for music understanding, and that humans show a high degree of
agreement with the model's responses in captioning and reasoning tasks. LLark
is trained entirely from open-source music data and models, and we make our
training code available along with the release of this paper. Additional
results and audio examples are at https://bit.ly/llark, and our source code is
available at https://github.com/spotify-research/llark .
- Abstract(参考訳): 音楽は独特で複雑な構造を持ち、熟練した人間と既存のaiシステムの両方にとって理解が難しい。
音楽理解のための命令調整型マルチモーダルモデルであるLLarkを提案する。
さまざまなオープンソース音楽データセットのアノテーションを増補し、それらを統一的な命令調整形式に変換するデータセット作成プロセスについて詳述する。
LLarkのためのマルチモーダルアーキテクチャを提案し、事前学習された言語モデルと事前学習された音楽生成モデルを統合する。
3種類のタスク(音楽理解、キャプション、推論)の評価において、我々のモデルは音楽理解のためのゼロショット一般化において既存のベースラインと一致し、また、人間はキャプションや推論タスクにおいてモデルの応答と高い一致を示す。
LLarkは、オープンソースの音楽データとモデルから完全にトレーニングされています。
追加の結果とオーディオのサンプルはhttps://bit.ly/llarkで、ソースコードはhttps://github.com/spotify-research/llarkで利用可能です。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。