論文の概要: A Domain-Knowledge-Inspired Music Embedding Space and a Novel Attention
Mechanism for Symbolic Music Modeling
- arxiv url: http://arxiv.org/abs/2212.00973v1
- Date: Fri, 2 Dec 2022 05:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:44:18.186056
- Title: A Domain-Knowledge-Inspired Music Embedding Space and a Novel Attention
Mechanism for Symbolic Music Modeling
- Title(参考訳): ドメイン知識に基づく音楽埋め込み空間とシンボリック音楽モデリングのための新しい注意機構
- Authors: Z. Guo, J. Kang, D. Herremans
- Abstract要約: バイアス調整された正弦波符号化に基づく記号音楽のための基本音楽埋め込み(FME)を提案する。
提案するFMEを利用して, 相対指数, ピッチ, オンセット埋め込みに基づく新しいアテンション機構を提案する。
RIPO変圧器は最先端の変圧器よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Following the success of the transformer architecture in the natural language
domain, transformer-like architectures have been widely applied to the domain
of symbolic music recently. Symbolic music and text, however, are two different
modalities. Symbolic music contains multiple attributes, both absolute
attributes (e.g., pitch) and relative attributes (e.g., pitch interval). These
relative attributes shape human perception of musical motifs. These important
relative attributes, however, are mostly ignored in existing symbolic music
modeling methods with the main reason being the lack of a musically-meaningful
embedding space where both the absolute and relative embeddings of the symbolic
music tokens can be efficiently represented. In this paper, we propose the
Fundamental Music Embedding (FME) for symbolic music based on a bias-adjusted
sinusoidal encoding within which both the absolute and the relative attributes
can be embedded and the fundamental musical properties (e.g., translational
invariance) are explicitly preserved. Taking advantage of the proposed FME, we
further propose a novel attention mechanism based on the relative index, pitch
and onset embeddings (RIPO attention) such that the musical domain knowledge
can be fully utilized for symbolic music modeling. Experiment results show that
our proposed model: RIPO transformer which utilizes FME and RIPO attention
outperforms the state-of-the-art transformers (i.e., music transformer, linear
transformer) in a melody completion task. Moreover, using the RIPO transformer
in a downstream music generation task, we notice that the notorious
degeneration phenomenon no longer exists and the music generated by the RIPO
transformer outperforms the music generated by state-of-the-art transformer
models in both subjective and objective evaluations.
- Abstract(参考訳): 自然言語領域におけるトランスフォーマーアーキテクチャの成功に続いて、最近はシンボリック音楽領域にトランスフォーマーのようなアーキテクチャが広く適用されている。
しかし、シンボリック音楽とテキストは2つの異なるモダリティである。
シンボリック音楽は、絶対的な属性(例えばピッチ)と相対的な属性(例えばピッチ間隔)の両方を含む複数の属性を含む。
これらの相対特性は音楽のモチーフの人間の知覚を形成する。
しかし、これらの重要な相対的属性は、主に既存の記号的音楽モデリング手法では無視されているが、主な理由は、記号的音楽トークンの絶対的および相対的埋め込みを効率的に表現できる、音楽的に意味のある埋め込み空間がないことである。
本稿では,絶対属性と相対属性の両方を組み込むことができるバイアス調整正弦波符号化に基づくシンボリック音楽の基本音楽埋め込み(fme)と,基本音楽特性(例えば,翻訳不変性)を明示的に保存する手法を提案する。
また,提案したFMEを利用して,音楽領域の知識を記号的音楽モデリングに活用できるように,相対指数,ピッチ,オンセット埋め込み(RIPOアテンション)に基づく新たなアテンション機構を提案する。
実験結果から,FME と RIPO に着目した RIPO 変圧器は,メロディ完了作業において最先端の変圧器(音楽変圧器,線形変圧器)よりも優れていた。
さらに、RIPO変換器を下流音楽生成タスクで使用すると、悪名高い再生現象がもはや存在しないことに気付き、RIPO変換器が生成した音楽は、主観的・客観的評価において、最先端の変換器モデルによって生成された音楽より優れる。
関連論文リスト
- Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment [0.0]
Music102は、D12等価変圧器によるコード進行伴奏を強化する。
先行する音楽知識を符号化することにより、モデルはメロディとコードシーケンスの双方で等価性を維持する。
この研究は、離散音楽領域への自己注意機構と層正規化の適応性を示す。
論文 参考訳(メタデータ) (2024-10-23T03:11:01Z) - MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERT [44.204383306879095]
シンボリック・マルチトラック音楽生成に特化して設計された新しいシンボリック・ミュージック表現とジェネレーティブ・アディバーショナル・ネットワーク(GAN)フレームワークを提案する。
頑健なマルチトラック・ミュージック・ジェネレータを構築するため,事前学習したMusicBERTモデルを微調整して判別器として機能し,相対論的標準損失を取り入れた。
論文 参考訳(メタデータ) (2024-09-02T03:18:56Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Signal-domain representation of symbolic music for learning embedding
spaces [2.28438857884398]
本稿では,ポリフォニック楽譜を連続信号に変換するシンボリック音楽データの新しい表現を提案する。
信号ライクな表現は、より良い再構築と不整合性をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-08T06:36:02Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。