論文の概要: Text2Tracks: Prompt-based Music Recommendation via Generative Retrieval
- arxiv url: http://arxiv.org/abs/2503.24193v2
- Date: Wed, 02 Apr 2025 14:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:50.967115
- Title: Text2Tracks: Prompt-based Music Recommendation via Generative Retrieval
- Title(参考訳): Text2Tracks: 生成検索によるプロンプトベースの音楽レコメンデーション
- Authors: Enrico Palumbo, Gustavo Penha, Andreas Damianou, José Luis Redondo García, Timothy Christopher Heath, Alice Wang, Hugues Bouchard, Mounia Lalmas,
- Abstract要約: 本稿では,生成的検索タスクとして,プロンプトベースの楽曲レコメンデーションの課題に対処することを提案する。
本研究では,ユーザの楽曲レコメンデーションプロンプトから関連するトラックIDへのマッピングを直接学習する生成的検索モデルであるText2Tracksを紹介する。
- 参考スコア(独自算出の注目度): 8.439626984193591
- License:
- Abstract: In recent years, Large Language Models (LLMs) have enabled users to provide highly specific music recommendation requests using natural language prompts (e.g. "Can you recommend some old classics for slow dancing?"). In this setup, the recommended tracks are predicted by the LLM in an autoregressive way, i.e. the LLM generates the track titles one token at a time. While intuitive, this approach has several limitation. First, it is based on a general purpose tokenization that is optimized for words rather than for track titles. Second, it necessitates an additional entity resolution layer that matches the track title to the actual track identifier. Third, the number of decoding steps scales linearly with the length of the track title, slowing down inference. In this paper, we propose to address the task of prompt-based music recommendation as a generative retrieval task. Within this setting, we introduce novel, effective, and efficient representations of track identifiers that significantly outperform commonly used strategies. We introduce Text2Tracks, a generative retrieval model that learns a mapping from a user's music recommendation prompt to the relevant track IDs directly. Through an offline evaluation on a dataset of playlists with language inputs, we find that (1) the strategy to create IDs for music tracks is the most important factor for the effectiveness of Text2Tracks and semantic IDs significantly outperform commonly used strategies that rely on song titles as identifiers (2) provided with the right choice of track identifiers, Text2Tracks outperforms sparse and dense retrieval solutions trained to retrieve tracks from language prompts.
- Abstract(参考訳): 近年、Large Language Models (LLMs) によって、ユーザーは自然言語のプロンプトを使って、非常に特定の音楽レコメンデーションリクエストを提供できるようになった("Can you recommend some old classics for slow dance?
この設定では、推奨トラックは自己回帰的にLSMによって予測される。
直感的ではあるが、このアプローチにはいくつかの制限がある。
第一に、トラックタイトルではなく単語に最適化された汎用トークン化に基づいている。
第二に、トラックタイトルと実際のトラック識別子とをマッチさせる追加のエンティティ解決層が必要である。
第3に、デコードステップの数はトラックタイトルの長さとともに線形にスケールし、推論を遅くする。
本稿では,生成的検索タスクとして,プロンプトベースの楽曲レコメンデーションの課題に対処することを提案する。
この設定では、一般的な戦略を著しく上回る、新しい、効果的で効率的なトラック識別子の表現を導入します。
本研究では,ユーザの楽曲レコメンデーションプロンプトから関連するトラックIDへのマッピングを直接学習する生成的検索モデルであるText2Tracksを紹介する。
本研究は,(1)音声入力によるプレイリストデータセットのオフライン評価を通じて,(1)音楽トラックのIDを作成する戦略が,曲のタイトルを識別子として依存する一般的な戦略よりもはるかに優れていること,(2)トラック識別子の選択が適切であること,(2)テキスト2トラックがスパースや密集した検索ソリューションで言語プロンプトからトラックを抽出する手法が優れていること,などを明らかにする。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Harnessing High-Level Song Descriptors towards Natural Language-Based Music Recommendation [10.740852246735004]
言語モデル(LM)は、ユーザーが大規模なカタログをナビゲートするのを支援することで人気を集めている。
ジャンル,ムード,リスニングコンテキストなどの記述子を用いたユーザ自然言語記述や項目に基づく楽曲の推薦におけるLMの有効性を評価した。
その結果,LMは言語間の類似性,情報検索,より長い記述をより短い高レベルな音楽記述子にマッピングするために微調整されているため,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-08T15:45:33Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - Music Playlist Title Generation Using Artist Information [4.201869316472344]
本稿では,一連の楽曲からプレイリストのタイトルを生成するエンコーダ・デコーダモデルを提案する。
トラックIDとアーティストIDを入力シーケンスとして比較した結果, 単語重複, 意味的関連性, 多様性の観点から, アーティストベースアプローチが性能を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-01-14T00:19:39Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse
Motion [56.1428110894411]
マルチヒューマントラッキングのための大規模データセットを提案する。
データセットには、主にグループダンスビデオが含まれているので、私たちはそれを"DanceTrack"と名付けます。
当社のデータセット上でいくつかの最先端トラッカーをベンチマークし、既存のベンチマークと比較した場合、DanceTrackの大幅なパフォーマンス低下を観察します。
論文 参考訳(メタデータ) (2021-11-29T16:49:06Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。