論文の概要: Investigating Personalization Methods in Text to Music Generation
- arxiv url: http://arxiv.org/abs/2309.11140v1
- Date: Wed, 20 Sep 2023 08:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 16:54:20.398565
- Title: Investigating Personalization Methods in Text to Music Generation
- Title(参考訳): テキストから音楽生成へのパーソナライズ手法の検討
- Authors: Manos Plitsis, Theodoros Kouzelis, Georgios Paraskevopoulos, Vassilis
Katsouros, Yannis Panagakis
- Abstract要約: コンピュータビジョン領域の最近の進歩に触発されて、事前学習されたテキスト・オーディオ・ディフューザと2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。
評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。
分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 21.71190700761388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the personalization of text-to-music diffusion
models in a few-shot setting. Motivated by recent advances in the computer
vision domain, we are the first to explore the combination of pre-trained
text-to-audio diffusers with two established personalization methods. We
experiment with the effect of audio-specific data augmentation on the overall
system performance and assess different training strategies. For evaluation, we
construct a novel dataset with prompts and music clips. We consider both
embedding-based and music-specific metrics for quantitative evaluation, as well
as a user study for qualitative evaluation. Our analysis shows that similarity
metrics are in accordance with user preferences and that current
personalization approaches tend to learn rhythmic music constructs more easily
than melody. The code, dataset, and example material of this study are open to
the research community.
- Abstract(参考訳): 本研究では,テキストから音楽への拡散モデルのパーソナライズを数ショットで検討する。
コンピュータビジョン領域の最近の進歩に動機づけられ、事前学習されたテキストから音声へのディフューザと、2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。
我々は,音声によるデータ拡張がシステム全体の性能に及ぼす影響を実験し,異なるトレーニング戦略を評価する。
評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。
定量的評価には組込みベースと音楽固有の指標の両方を検討し,質的評価のためのユーザ調査を行った。
分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
この研究のコード、データセット、サンプル資料は、研究コミュニティに公開されています。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Audio-to-Score Conversion Model Based on Whisper methodology [0.0]
この論文は、音楽情報をトークンに変換するカスタム表記システムである"Orpheus' Score"を革新的に導入している。
実験によると、従来のアルゴリズムと比較して、モデルは精度と性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-10-22T17:31:37Z) - Evaluating Co-Creativity using Total Information Flow [6.3289703660543495]
音楽におけるコ・クリエーション(co-creativity)とは、音楽の作曲や即興で相互に相互作用する2人以上の音楽家または音楽家を指す。
本研究では,事前学習した生成モデルを用いて情報フローをエントロピー推定器として計算する手法を提案する。
論文 参考訳(メタデータ) (2024-02-09T22:15:39Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Actions Speak Louder than Listening: Evaluating Music Style Transfer
based on Editing Experience [4.986422167919228]
本研究では,音楽生成モデルのユーザによる編集経験を体系的に評価するための編集テストを提案する。
その結果, ベースラインモデルに対する改善は, 編集試験によって定量的に反映できることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T12:20:30Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。