論文の概要: Learning long-term music representations via hierarchical contextual
constraints
- arxiv url: http://arxiv.org/abs/2202.06180v1
- Date: Sun, 13 Feb 2022 01:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 11:09:32.322201
- Title: Learning long-term music representations via hierarchical contextual
constraints
- Title(参考訳): 階層的文脈制約による長期音楽表現の学習
- Authors: Shiqi Wei, Gus Xia
- Abstract要約: 本稿では,文脈制約による長期的象徴的音楽表現の学習手法を提案する。
まず、コントラスト学習を用いて、短期的表現との違いを制約することで、長期的表現を事前訓練する。
そして,適切な長期的表現が対応する短期的表現を再構築できるように,階層的予測モデルにより長期的表現を微調整する。
- 参考スコア(独自算出の注目度): 2.1930130356902207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning symbolic music representations, especially disentangled
representations with probabilistic interpretations, has been shown to benefit
both music understanding and generation. However, most models are only
applicable to short-term music, while learning long-term music representations
remains a challenging task. We have seen several studies attempting to learn
hierarchical representations directly in an end-to-end manner, but these models
have not been able to achieve the desired results and the training process is
not stable. In this paper, we propose a novel approach to learn long-term
symbolic music representations through contextual constraints. First, we use
contrastive learning to pre-train a long-term representation by constraining
its difference from the short-term representation (extracted by an
off-the-shelf model). Then, we fine-tune the long-term representation by a
hierarchical prediction model such that a good long-term representation (e.g.,
an 8-bar representation) can reconstruct the corresponding short-term ones
(e.g., the 2-bar representations within the 8-bar range). Experiments show that
our method stabilizes the training and the fine-tuning steps. In addition, the
designed contextual constraints benefit both reconstruction and
disentanglement, significantly outperforming the baselines.
- Abstract(参考訳): 象徴的音楽表現、特に確率的解釈と絡み合った表現を学ぶことは、音楽の理解と生成の両方に有益であることが示されている。
しかし、ほとんどのモデルは短期音楽にしか適用できないが、長期的な音楽表現を学ぶことは難しい課題である。
階層的表現を直接エンドツーエンドで学習しようとする研究はいくつかあるが、これらのモデルでは望ましい結果が得られず、トレーニングプロセスは安定していない。
本稿では,文脈制約による長期的象徴的音楽表現の学習手法を提案する。
まず、コントラスト学習を用いて、短期表現との違いを制約し、長期表現を事前訓練する(オフザシェルフモデルにより抽出される)。
次に、良好な長期表現(例えば8バール表現)が対応する短期表現(例えば8バールの範囲内の2バール表現)を再構築できるような階層的予測モデルにより、長期表現を微調整する。
実験により,本手法はトレーニングと微調整ステップを安定化することを示した。
さらに、設計されたコンテキスト制約は、再構築と切り離しの両方の恩恵を受け、ベースラインを著しく上回る。
関連論文リスト
- Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - Motif-Centric Representation Learning for Symbolic Music [5.781931021964343]
我々は、表現学習を通してモチーフとそのバリエーションの間の暗黙の関係を学習する。
正規化に基づくVICRegは事前学習に採用され、コントラスト学習は微調整に使用されている。
得られたモチーフ表現を可視化し、楽曲全体の構造を直感的に理解する。
論文 参考訳(メタデータ) (2023-09-19T13:09:03Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - Semi-supervised music emotion recognition using noisy student training
and harmonic pitch class profiles [0.0]
我々は、2021年の感情とテーマ・イン・ミュージック・チャレンジへのミラブルの提出を提示する。
この研究は、音楽の感情認識に半教師付き学習手法を活用できるかという問題に対処する。
論文 参考訳(メタデータ) (2021-12-01T18:25:51Z) - Learning of Visual Relations: The Devil is in the Tails [59.737494875502215]
視覚的関係学習は、物体群に関する共同推論の性質から、長期にわたる問題である。
本稿では,悪が天国にあるという別の仮説を探求する。
この仮説の下では、モデルをシンプルに保ちながら、長い尾の分布に対処する能力を向上させることで、より良い性能が得られる。
論文 参考訳(メタデータ) (2021-08-22T08:59:35Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Self-Supervised Learning of Context-Aware Pitch Prosody Representations [3.2489082010225485]
短歌声帯の文脈表現を基本周波数から暗黙的に学習する方法を示す。
これら2つの文脈の擬似タスク学習を活用する3つの自己教師型ディープラーニングパラダイムを提案する。
その結果,従来の統計的輪郭特性と比較して,文脈表現は下流の分類を最大15%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T15:41:00Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。