論文の概要: Music FaderNets: Controllable Music Generation Based On High-Level
Features via Low-Level Feature Modelling
- arxiv url: http://arxiv.org/abs/2007.15474v1
- Date: Wed, 29 Jul 2020 16:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:11:55.164219
- Title: Music FaderNets: Controllable Music Generation Based On High-Level
Features via Low-Level Feature Modelling
- Title(参考訳): Music FaderNets:低レベル特徴モデリングによる高レベル特徴に基づく制御可能な音楽生成
- Authors: Hao Hao Tan, Dorien Herremans
- Abstract要約: 限られたデータ量で高レベルの特徴表現を学習できるフレームワークを提案する。
提案するフレームワークをMusic FaderNetsと呼び,低レベルの属性を継続的に操作できるという事実から着想を得た。
本モデルでは, 覚醒特性とそれに対応する低レベル属性の固有関係をうまく学習できることを実証する。
- 参考スコア(独自算出の注目度): 5.88864611435337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-level musical qualities (such as emotion) are often abstract,
subjective, and hard to quantify. Given these difficulties, it is not easy to
learn good feature representations with supervised learning techniques, either
because of the insufficiency of labels, or the subjectiveness (and hence large
variance) in human-annotated labels. In this paper, we present a framework that
can learn high-level feature representations with a limited amount of data, by
first modelling their corresponding quantifiable low-level attributes. We refer
to our proposed framework as Music FaderNets, which is inspired by the fact
that low-level attributes can be continuously manipulated by separate "sliding
faders" through feature disentanglement and latent regularization techniques.
High-level features are then inferred from the low-level representations
through semi-supervised clustering using Gaussian Mixture Variational
Autoencoders (GM-VAEs). Using arousal as an example of a high-level feature, we
show that the "faders" of our model are disentangled and change linearly w.r.t.
the modelled low-level attributes of the generated output music. Furthermore,
we demonstrate that the model successfully learns the intrinsic relationship
between arousal and its corresponding low-level attributes (rhythm and note
density), with only 1% of the training set being labelled. Finally, using the
learnt high-level feature representations, we explore the application of our
framework in style transfer tasks across different arousal states. The
effectiveness of this approach is verified through a subjective listening test.
- Abstract(参考訳): 高レベルの音楽的性質(感情など)はしばしば抽象的で主観的であり、定量化が難しい。
これらの困難を考えると、ラベルの不足や、人間の注釈付きラベルの主観性(そしてそれゆえ大きなばらつき)のため、教師付き学習技術で良い特徴表現を学ぶことは容易ではない。
本稿では,まず,数量化可能な低レベル属性をモデル化することで,限られたデータ量で高レベルな特徴表現を学習できるフレームワークを提案する。
提案するフレームワークを Music FaderNets と呼び,低レベル属性を特徴不整合と潜時正規化技術により分離した「滑りフェーダ」で連続的に操作できることに着想を得た。
ハイレベルな特徴は、ガウス混合変分オートエンコーダ(gm-vaes)を用いた半教師付きクラスタリングを通じて低レベル表現から推測される。
Arousal を高次特徴の例として用いて、我々のモデルの「ファダーズ」はアンタングル化され、線形に変化し、生成された出力音楽の低次特性をモデル化する。
さらに,本モデルでは,覚醒と対応する低レベル属性(リズムと音符密度)の固有関係を学習し,トレーニングセットの1%がラベル付けされていることを実証した。
最後に、学習された高レベルな特徴表現を用いて、様々な覚醒状態におけるスタイル転送タスクにおける我々のフレームワークの応用について検討する。
本手法の有効性は主観的聴取テストによって検証される。
関連論文リスト
- Impact of Label Noise on Learning Complex Features [0.5249805590164901]
事前学習は,ノイズの存在下での学習の複雑な機能や多様な特徴を促進することを示す。
実験により,ノイズラベルによる事前学習は,勾配降下を促進させ,代替のミニマを見つけることを実証した。
論文 参考訳(メタデータ) (2024-11-07T09:47:18Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - FIGARO: Generating Symbolic Music with Fine-Grained Artistic Control [25.95359681751144]
本稿では,グローバルレベルできめ細かな制御可能生成が可能な自己教師型記述系列タスクを提案する。
そこで本研究では、ターゲットシーケンスに関する高レベル特徴を抽出し、対応する高レベル記述が与えられたシーケンスの条件分布を、シーケンス・ツー・シーケンス・モデリング・セットアップで学習する。
学習された高次特徴と、強い帰納バイアスとして機能するドメイン知識を組み合わせることで、制御可能なシンボリック音楽生成の最先端結果を実現し、トレーニング分布をはるかに越えて一般化する。
論文 参考訳(メタデータ) (2022-01-26T13:51:19Z) - Generating Lead Sheets with Affect: A Novel Conditional seq2seq
Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。
私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。
提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文 参考訳(メタデータ) (2021-04-27T09:04:21Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。