論文の概要: Actions Speak Louder than Listening: Evaluating Music Style Transfer
based on Editing Experience
- arxiv url: http://arxiv.org/abs/2110.12855v1
- Date: Mon, 25 Oct 2021 12:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 23:12:44.898706
- Title: Actions Speak Louder than Listening: Evaluating Music Style Transfer
based on Editing Experience
- Title(参考訳): 聴くことよりも口を傾ける行動:編集経験に基づく音楽スタイルの伝達の評価
- Authors: Wei-Tsung Lu, Meng-Hsuan Wu, Yuh-Ming Chiu, Li Su
- Abstract要約: 本研究では,音楽生成モデルのユーザによる編集経験を体系的に評価するための編集テストを提案する。
その結果, ベースラインモデルに対する改善は, 編集試験によって定量的に反映できることが示唆された。
- 参考スコア(独自算出の注目度): 4.986422167919228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The subjective evaluation of music generation techniques has been mostly done
with questionnaire-based listening tests while ignoring the perspectives from
music composition, arrangement, and soundtrack editing. In this paper, we
propose an editing test to evaluate users' editing experience of music
generation models in a systematic way. To do this, we design a new music style
transfer model combining the non-chronological inference architecture,
autoregressive models and the Transformer, which serves as an improvement from
the baseline model on the same style transfer task. Then, we compare the
performance of the two models with a conventional listening test and the
proposed editing test, in which the quality of generated samples is assessed by
the amount of effort (e.g., the number of required keyboard and mouse actions)
spent by users to polish a music clip. Results on two target styles indicate
that the improvement over the baseline model can be reflected by the editing
test quantitatively. Also, the editing test provides profound insights which
are not accessible from usual listening tests. The major contribution of this
paper is the systematic presentation of the editing test and the corresponding
insights, while the proposed music style transfer model based on
state-of-the-art neural networks represents another contribution.
- Abstract(参考訳): 音楽生成手法の主観評価は, 楽曲構成, 編曲, サウンドトラック編集の視点を無視しながら, アンケートに基づく聴取テストによって行われている。
本稿では,音楽生成モデルのユーザによる編集経験を体系的に評価する編集テストを提案する。
そこで我々は,非時間的推論アーキテクチャ,自己回帰モデル,トランスフォーマーを組み合わせた新しい音楽スタイルのトランスファーモデルを設計し,同じスタイルのトランスファータスクにおけるベースラインモデルから改善する。
次に,2つのモデルの性能を従来の聴取テストと比較し,生成したサンプルの品質をユーザが音楽クリップを磨くのに要する作業量(キーボードとマウスの動作数など)によって評価する編集テストを提案する。
その結果, ベースラインモデルに対する改善は, 編集試験によって定量的に反映できることが示唆された。
また、編集テストは、通常のリスニングテストからアクセスできない深い洞察を提供する。
本研究の主な貢献は,編集テストとそれに対応する知見の体系的提示であり,また,最新のニューラルネットワークに基づく音楽スタイルの伝達モデルも貢献している。
関連論文リスト
- MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。
注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文 参考訳(メタデータ) (2024-05-28T17:27:20Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - Investigating Personalization Methods in Text to Music Generation [21.71190700761388]
コンピュータビジョン領域の最近の進歩に触発されて、事前学習されたテキスト・オーディオ・ディフューザと2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。
評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。
分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-09-20T08:36:34Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。