論文の概要: Variable-Length Music Score Infilling via XLNet and Musically
Specialized Positional Encoding
- arxiv url: http://arxiv.org/abs/2108.05064v1
- Date: Wed, 11 Aug 2021 07:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 17:18:03.901111
- Title: Variable-Length Music Score Infilling via XLNet and Musically
Specialized Positional Encoding
- Title(参考訳): XLNetによる可変長楽譜入力と音楽特殊位置符号化
- Authors: Chin-Jui Chang and Chun-Yi Lee and Yi-Hsuan Yang
- Abstract要約: 本稿では,楽譜埋込のための自己注意モデルを提案する。
それは、与えられた過去と将来の状況の間のギャップを埋めるポリフォニックな音楽シーケンスを生成する。
- 参考スコア(独自算出の注目度): 37.725607373307646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new self-attention based model for music score
infilling, i.e., to generate a polyphonic music sequence that fills in the gap
between given past and future contexts. While existing approaches can only fill
in a short segment with a fixed number of notes, or a fixed time span between
the past and future contexts, our model can infill a variable number of notes
(up to 128) for different time spans. We achieve so with three major technical
contributions. First, we adapt XLNet, an autoregressive model originally
proposed for unsupervised model pre-training, to music score infilling. Second,
we propose a new, musically specialized positional encoding called relative bar
encoding that better informs the model of notes' position within the past and
future context. Third, to capitalize relative bar encoding, we perform
look-ahead onset prediction to predict the onset of a note one time step before
predicting the other attributes of the note. We compare our proposed model with
two strong baselines and show that our model is superior in both objective and
subjective analyses.
- Abstract(参考訳): 本稿では,過去と将来の状況のギャップを埋める多声楽曲列を生成するための,音楽スコアインフィルメントのための新しい自己愛着モデルを提案する。
既存のアプローチでは、一定数のメモで短いセグメントを埋めることができ、あるいは過去と将来のコンテキストにまたがる固定時間しか満たさないが、我々のモデルは異なる時間間隔で、可変数のメモ(最大128)を埋めることができる。
私たちは3つの主要な技術貢献で達成します。
まず,教師なしモデル事前学習のための自己回帰モデルであるXLNetを,楽譜入力に適用する。
第2に,過去と未来における音符の位置のモデルをよりよく知らせる,相対バーエンコーディングと呼ばれる,音楽に特化された新しい位置エンコーディングを提案する。
第三に、相対バーエンコーディングを大文字化するために、ノートの他の属性を予測する前に、ノートの開始を1回ずつ予測するルックアヘッドオンセット予測を行う。
提案モデルと2つの強いベースラインを比較し,本モデルが主観的および主観的分析において優れていることを示す。
関連論文リスト
- Tempo estimation as fully self-supervised binary classification [6.255143207183722]
ラベル付きデータに依存しない完全自己教師型アプローチを提案する。
提案手法は,テンポに関する情報を含む様々な特性を,すでに汎用的な(音楽的な)オーディオ埋め込みがエンコードしているという事実に基づいている。
論文 参考訳(メタデータ) (2024-01-17T00:15:16Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Checklist Models for Improved Output Fluency in Piano Fingering
Prediction [33.52847881359949]
ピアノ音楽の指先予測のための新しい手法を提案する。
我々は、近年の予測の表現を維持する強化学習を通じて訓練されたチェックリストシステムを提案する。
これらの指標に対する改善に直接寄与する性能の顕著な向上を示す。
論文 参考訳(メタデータ) (2022-09-12T21:27:52Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Generating Music with a Self-Correcting Non-Chronological Autoregressive
Model [6.289267097017553]
本稿では,自己修正的,非時間的,自己回帰的モデルを用いた新しい音楽生成手法について述べる。
我々は音楽を編集イベントのシーケンスとして表現し、それぞれがノートの追加または削除を表す。
推論中、直接祖先サンプリングを用いて1回に1回の編集イベントを生成する。
論文 参考訳(メタデータ) (2020-08-18T20:36:47Z) - Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization [48.55126268721948]
本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
論文 参考訳(メタデータ) (2020-05-18T08:35:16Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。