論文の概要: Pay (Cross) Attention to the Melody: Curriculum Masking for Single-Encoder Melodic Harmonization
- arxiv url: http://arxiv.org/abs/2601.16150v1
- Date: Thu, 22 Jan 2026 17:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.680663
- Title: Pay (Cross) Attention to the Melody: Curriculum Masking for Single-Encoder Melodic Harmonization
- Title(参考訳): メロディに対する支払い:シングルエンコーダ・メロディ調和のためのカリキュラムマスキング
- Authors: Maximos Kaliakatsos-Papakostas, Dimos Makris, Konstantinos Soiledis, Konstantinos-Theodoros Tsamis, Vassilis Katsouros, Emilios Cambouropoulos,
- Abstract要約: 我々は,複数のトレーニングステップにおいて,すべての調和トークンを隠蔽する訓練カリキュラムFF(Full-to-Full)を導入する。
複数の実験軸にまたがる事前カリキュラムに対して,本手法を系統的に評価した。
その結果、提案するFFカリキュラムは、ほぼすべての指標において、ベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 2.087792589220897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Melodic harmonization, the task of generating harmonic accompaniments for a given melody, remains a central challenge in computational music generation. Recent single encoder transformer approaches have framed harmonization as a masked sequence modeling problem, but existing training curricula inspired by discrete diffusion often result in weak (cross) attention between melody and harmony. This leads to limited exploitation of melodic cues, particularly in out-of-domain contexts. In this work, we introduce a training curriculum, FF (full-to-full), which keeps all harmony tokens masked for several training steps before progressively unmasking entire sequences during training to strengthen melody-harmony interactions. We systematically evaluate this approach against prior curricula across multiple experimental axes, including temporal quantization (quarter vs. sixteenth note), bar-level vs. time-signature conditioning, melody representation (full range vs. pitch class), and inference-time unmasking strategies. Models are trained on the HookTheory dataset and evaluated both in-domain and on a curated collection of jazz standards, using a comprehensive set of metrics that assess chord progression structure, harmony-melody alignment, and rhythmic coherence. Results demonstrate that the proposed FF curriculum consistently outperforms baselines in nearly all metrics, with particularly strong gains in out-of-domain evaluations where harmonic adaptability to novel melodic queues is crucial. We further find that quarter-note quantization, intertwining of bar tokens, and pitch-class melody representations are advantageous in the FF setting. Our findings highlight the importance of training curricula in enabling effective melody conditioning and suggest that full-to-full unmasking offers a robust strategy for single encoder harmonization.
- Abstract(参考訳): メロディ調和(Melodic harmonization)は、与えられたメロディの伴奏を生成するタスクであり、計算音楽生成における中心的な課題である。
最近のシングルエンコーダ・トランスフォーマー・アプローチは、マスク付きシーケンスモデリング問題として調和化をフレーム化しているが、離散拡散にインスパイアされた既存の訓練カリキュラムは、メロディと調和の間に弱い(クロス)注意をもたらすことが多い。
これはメロディックなキュー、特にドメイン外のコンテキストを限定的に利用することにつながる。
本研究では,複数のトレーニングステップにおいて,すべての調和トークンをマスクしたFF(full-to-full)をトレーニング中に段階的にアンマッシングし,メロディ-ハーモニー相互作用を強化する訓練カリキュラムを提案する。
提案手法は,時間的量子化(4分の1対16音),バーレベル対時間信号条件付け,メロディ表現(フルレンジ対ピッチクラス),推論時アンマスキング戦略など,複数の実験軸にまたがる先行キュキュキュラに対して体系的に評価する。
モデルは、HookTheoryデータセットに基づいてトレーニングされ、コード進行構造、ハーモニー・メロディアライメント、リズムコヒーレンスを評価する包括的なメトリクスセットを使用して、ドメイン内およびジャズ標準のキュレーションされたコレクションの両方で評価される。
提案するFFカリキュラムは,新しいメロディックキューへの調和性の重要性が不可欠である領域外評価において,ほぼすべての指標において,ベースラインを一貫して上回ることを示す。
さらに、FF設定において、クォーターノートの量子化、バートークンの絡み合い、ピッチクラスのメロディ表現が有利であることが分かる。
本研究は, 効果的なメロディ条件付けを可能にするための訓練カリキュラムの重要性を強調し, フル・トゥ・フル・アンマスキングがシングルエンコーダ調和のための堅牢な戦略をもたらすことを示唆する。
関連論文リスト
- From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation [9.584152437544974]
本稿では,従来の二分法を超えて拡張されたメトリクスを用いて,コードアノテーションにおけるアノテーション間合意の評価を行う。
共振器を用いたラベル平滑化により、共振器の概念をモデルに統合する新しいACEコンバータモデルを提案する。
論文 参考訳(メタデータ) (2025-09-01T16:20:47Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Adaptive Accompaniment with ReaLchords [60.690020661819055]
ユーザのメロディに合わせてコード伴奏を即興するオンライン生成モデルであるReaLchordsを提案する。
まず、最大で事前訓練されたオンラインモデルから始め、強化学習を使用して、オンライン使用のためのモデルを微調整します。
論文 参考訳(メタデータ) (2025-06-17T16:59:05Z) - Bridging Weakly-Supervised Learning and VLM Distillation: Noisy Partial Label Learning for Efficient Downstream Adaptation [51.67328507400985]
ノイズ部分ラベル学習(NPLL)では、各トレーニングサンプルは、複数のノイズアノテータによって注釈付けされた候補ラベルのセットに関連付けられている。
本稿では、事前学習された視覚言語モデルによって注釈付けされた部分ラベルからの学習に焦点を当てる。
革新的な協調整合正則化(Co-Reg)法を提案する。
論文 参考訳(メタデータ) (2025-06-03T12:48:54Z) - Toward Fully Self-Supervised Multi-Pitch Estimation [21.000057864087164]
マルチピッチ推定のための自己教師型学習目標セットを提案する。
これらの目的は、完全に畳み込みのオートエンコーダを訓練して、直接マルチピッチサリエンスグラムを生成するのに十分である。
完全自己教師付きフレームワークは,ポリフォニック・ミックスを一般化し,従来のマルチピッチ・データセットで訓練された教師付きモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-02-23T19:12:41Z) - MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation [39.892059799407434]
MelodyGLMは長期構造を持つメロディを生成するためのマルチタスク事前学習フレームワークである。
我々は,0.4百万以上のメロディを含む大規模な記号的メロディデータセットMelodyNetを構築した。
論文 参考訳(メタデータ) (2023-09-19T16:34:24Z) - SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。
本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。
本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文 参考訳(メタデータ) (2022-03-25T09:42:11Z) - A-Muze-Net: Music Generation by Composing the Harmony based on the
Generated Melody [91.22679787578438]
ピアノ音楽のMidiファイルを生成する方法を提案する。
この方法は、左手を右手に固定した2つのネットワークを用いて、左右の手をモデル化する。
ミディは音階に不変な方法で表現され、メロディはハーモニーを調和させる目的で表現される。
論文 参考訳(メタデータ) (2021-11-25T09:45:53Z) - BacHMMachine: An Interpretable and Scalable Model for Algorithmic
Harmonization for Four-part Baroque Chorales [23.64897650817862]
BacHMMachineは、音楽作曲の原則によって導かれる「理論駆動」の枠組みを採用している。
与えられた旋律線から鍵変調と和音の進行を学習するための確率的フレームワークを提供する。
これにより計算負荷が大幅に減少し、解釈可能性も向上する。
論文 参考訳(メタデータ) (2021-09-15T23:39:45Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。