論文の概要: Tune It Up: Music Genre Transfer and Prediction
- arxiv url: http://arxiv.org/abs/2503.22008v1
- Date: Thu, 27 Mar 2025 21:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:30:48.755941
- Title: Tune It Up: Music Genre Transfer and Prediction
- Title(参考訳): Tune it up: Music Genre Transferと予測
- Authors: Fidan Samet, Oguz Bakir, Adnan Fidan,
- Abstract要約: 我々は、ジャズやクラシックのジャンルで音楽スタイルの転送を行うために、CycleGANモデルを適応し改善する。
そこで我々は,新しい曲を容易に生成し,異なるジャンルの楽曲をカバーし,それらのプロセスに必要なアレンジメントを減らすことを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Deep generative models have been used in style transfer tasks for images. In this study, we adapt and improve CycleGAN model to perform music style transfer on Jazz and Classic genres. By doing so, we aim to easily generate new songs, cover music to different music genres and reduce the arrangements needed in those processes. We train and use music genre classifier to assess the performance of the transfer models. To that end, we obtain 87.7% accuracy with Multi-layer Perceptron algorithm. To improve our style transfer baseline, we add auxiliary discriminators and triplet loss to our model. According to our experiments, we obtain the best accuracies as 69.4% in Jazz to Classic task and 39.3% in Classic to Jazz task with our developed genre classifier. We also run a subjective experiment and results of it show that the overall performance of our transfer model is good and it manages to conserve melody of inputs on the transferred outputs. Our code is available at https://github.com/ fidansamet/tune-it-up
- Abstract(参考訳): 深層生成モデルは、画像のスタイル伝達タスクに使われてきた。
本研究では,ジャズやクラシックのジャンルにおいて,音楽スタイルのトランスファーを行うためにCycleGANモデルを適応し,改良する。
そこで我々は,新しい曲を容易に生成し,異なるジャンルの楽曲をカバーし,それらのプロセスに必要なアレンジメントを減らすことを目的としている。
転送モデルの性能を評価するために音楽ジャンル分類器を訓練・使用する。
そのため,多層パーセプトロンアルゴリズムを用いて87.7%の精度が得られる。
モデルに補助判別器と三重項損失を加えた。
実験の結果,ジャズ・トゥ・クラシック・タスクでは69.4%,クラシック・トゥ・ジャズ・タスクでは39.3%,ジャンル分類器では39.3%と最高の精度が得られた。
また、主観的な実験を行い、その結果から、転送モデル全体の性能が良く、転送された出力に対する入力のメロディを保存できることを示した。
私たちのコードはhttps://github.com/ fidansamet/tune-it-upで利用可能です。
関連論文リスト
- Music for All: Exploring Multicultural Representations in Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement [6.873190001575463]
ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。
ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
論文 参考訳(メタデータ) (2025-02-06T21:45:38Z) - Enhancing Sequential Music Recommendation with Personalized Popularity Awareness [56.972624411205224]
本稿では、パーソナライズされた人気情報をシーケンシャルなレコメンデーションに組み込む新しいアプローチを提案する。
実験結果から、パーソナライズされた最もポピュラーなレコメンデータは、既存の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-06T15:05:12Z) - Music Era Recognition Using Supervised Contrastive Learning and Artist Information [11.126020721501956]
音楽時代情報は、プレイリストの生成とレコメンデーションにとって重要な機能である。
音声から年齢を予測するために,音声に基づくモデルを開発した。
アーティスト情報が入手可能な場合には,マルチモーダル入力を受信するための音声モデルを拡張し,マルチモーダルコントラスト学習(MMC)と呼ばれるフレームワークを開発し,トレーニングを強化する。
論文 参考訳(メタデータ) (2024-07-07T13:43:55Z) - Music Style Transfer With Diffusion Model [11.336043499372792]
本研究では,拡散モデル(DM)に基づく音楽スタイルの転送フレームワークを提案し,スペクトル法を用いてマルチ・マルチ・マルチ音楽スタイルの転送を実現する。
GuideDiff法は、スペクトルを高忠実度オーディオに復元し、音声生成速度を加速し、生成されたオーディオのノイズを低減するために用いられる。
論文 参考訳(メタデータ) (2024-04-23T06:22:19Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文 参考訳(メタデータ) (2023-07-19T07:29:14Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。