論文の概要: LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation
- arxiv url: http://arxiv.org/abs/2406.14333v1
- Date: Thu, 20 Jun 2024 14:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 21:11:16.905204
- Title: LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation
- Title(参考訳): LARP:コールドスタートプレイリスト継続のための言語オーディオリレーショナル事前学習
- Authors: Rebecca Salganik, Xiaohao Liu, Yunshan Ma, Jian Kang, Tat-Seng Chua,
- Abstract要約: マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
- 参考スコア(独自算出の注目度): 49.89372182441713
- License:
- Abstract: As online music consumption increasingly shifts towards playlist-based listening, the task of playlist continuation, in which an algorithm suggests songs to extend a playlist in a personalized and musically cohesive manner, has become vital to the success of music streaming. Currently, many existing playlist continuation approaches rely on collaborative filtering methods to perform recommendation. However, such methods will struggle to recommend songs that lack interaction data, an issue known as the cold-start problem. Current approaches to this challenge design complex mechanisms for extracting relational signals from sparse collaborative data and integrating them into content representations. However, these approaches leave content representation learning out of scope and utilize frozen, pre-trained content models that may not be aligned with the distribution or format of a specific musical setting. Furthermore, even the musical state-of-the-art content modules are either (1) incompatible with the cold-start setting or (2) unable to effectively integrate cross-modal and relational signals. In this paper, we introduce LARP, a multi-modal cold-start playlist continuation model, to effectively overcome these limitations. LARP is a three-stage contrastive learning framework that integrates both multi-modal and relational signals into its learned representations. Our framework uses increasing stages of task-specific abstraction: within-track (language-audio) contrastive loss, track-track contrastive loss, and track-playlist contrastive loss. Experimental results on two publicly available datasets demonstrate the efficacy of LARP over uni-modal and multi-modal models for playlist continuation in a cold-start setting. Code and dataset are released at: https://github.com/Rsalganik1123/LARP.
- Abstract(参考訳): オンライン音楽の消費がプレイリストベースのリスニングへとシフトするにつれて、プレイリストの継続という課題は、パーソナライズされ、音楽的に結びついた方法でプレイリストを拡張するアルゴリズムが、音楽ストリーミングの成功に欠かせないものになっている。
現在、多くの既存のプレイリスト継続アプローチは、レコメンデーションを実行するために協調的なフィルタリング手法に依存している。
しかし、このような手法は、コールドスタート問題として知られる相互作用データがない曲を推薦するのに苦労する。
この課題に対する現在のアプローチは、疎結合データから関係信号を抽出し、それらをコンテンツ表現に統合する複雑なメカニズムを設計している。
しかし、これらのアプローチは、コンテンツ表現の学習をスコープから外し、特定の音楽設定の分布や形式に一致しない、凍結した事前訓練されたコンテンツモデルを利用する。
さらに、音楽的最先端コンテンツモジュールでさえ、(1)コールドスタート設定と互換性がないか、(2)クロスモーダルおよびリレーショナル信号を効果的に統合できないかのいずれかである。
本稿では,これらの制約を効果的に克服するために,マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを紹介する。
LARPは3段階のコントラスト学習フレームワークで、マルチモーダル信号とリレーショナル信号の両方を学習表現に統合する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
2つの公開データセットの実験結果は、コールドスタート環境でのプレイリスト継続のためのユニモーダルモデルとマルチモーダルモデルに対するLARPの有効性を示す。
コードとデータセットは、https://github.com/Rsalganik1123/LARPでリリースされている。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Passage Summarization with Recurrent Models for Audio-Sheet Music
Retrieval [4.722882736419499]
クロスモーダル音楽検索は、シート音楽画像とオーディオ録音を接続することができる。
そこで本研究では,音声と楽譜の長いパスを要約するために,共同埋め込みを学習するクロスモーダル・リカレント・ネットワークを提案する。
合成および実ピアノデータとスコアについて多数の実験を行い、提案手法が全ての可能な構成においてより正確な検索につながることを示す。
論文 参考訳(メタデータ) (2023-09-21T14:30:02Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。