論文の概要: Score Transformer: Generating Musical Score from Note-level
Representation
- arxiv url: http://arxiv.org/abs/2112.00355v1
- Date: Wed, 1 Dec 2021 09:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:56:59.248975
- Title: Score Transformer: Generating Musical Score from Note-level
Representation
- Title(参考訳): スコア変換器:ノートレベルの表現から楽譜を生成する
- Authors: Masahiro Suzuki
- Abstract要約: 音符レベルの表現を適切な音楽表記に変換するためにトランスフォーマーモデルを訓練する。
また、モデルを扱うための効果的な表記レベルトークン表現についても検討する。
- 参考スコア(独自算出の注目度): 2.3554584457413483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the tokenized representation of musical scores
using the Transformer model to automatically generate musical scores. Thus far,
sequence models have yielded fruitful results with note-level (MIDI-equivalent)
symbolic representations of music. Although the note-level representations can
comprise sufficient information to reproduce music aurally, they cannot contain
adequate information to represent music visually in terms of notation. Musical
scores contain various musical symbols (e.g., clef, key signature, and notes)
and attributes (e.g., stem direction, beam, and tie) that enable us to visually
comprehend musical content. However, automated estimation of these elements has
yet to be comprehensively addressed. In this paper, we first design score token
representation corresponding to the various musical elements. We then train the
Transformer model to transcribe note-level representation into appropriate
music notation. Evaluations of popular piano scores show that the proposed
method significantly outperforms existing methods on all 12 musical aspects
that were investigated. We also explore an effective notation-level token
representation to work with the model and determine that our proposed
representation produces the steadiest results.
- Abstract(参考訳): 本稿では,楽譜の自動生成にトランスフォーマーモデルを用いて,楽譜のトークン化表現について検討する。
これまでのところ、シーケンスモデルは音楽の音階(MIDIと同値)の記号表現による実りある結果をもたらしている。
音階表現は、聴覚的に音楽の再生に十分な情報を構成することができるが、表記の観点からは、音楽の視覚的表現に十分な情報を含まない。
楽譜には、様々な音楽記号(例えば、クレフ、キーシグネチャ、音符)と、視覚的に音楽内容を理解することができる属性(例えば、茎方向、ビーム、ネクタイ)が含まれている。
しかし、これらの要素の自動推定はまだ包括的に対処されていない。
本稿では,様々な音楽要素に対応するスコアトークン表現を最初に設計する。
次に、トランスフォーマーモデルを訓練し、音符レベルの表現を適切な音楽記法に書き込む。
ポピュラーピアノの楽譜評価の結果,提案手法は,12曲の楽譜面において,既存手法よりも有意に優れていた。
また、モデルと連携するための効果的な表記レベルのトークン表現を探索し、提案する表現が最も安定した結果を生み出すかどうかを判断する。
関連論文リスト
- End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-07-15T14:36:13Z) - Impact of time and note duration tokenizations on deep learning symbolic
music modeling [0.0]
共通トークン化手法を解析し、時間と音符の持続時間表現を実験する。
明示的な情報がタスクによってより良い結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:56:37Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Signal-domain representation of symbolic music for learning embedding
spaces [2.28438857884398]
本稿では,ポリフォニック楽譜を連続信号に変換するシンボリック音楽データの新しい表現を提案する。
信号ライクな表現は、より良い再構築と不整合性をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-08T06:36:02Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Embeddings as representation for symbolic music [0.0]
音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。
本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
論文 参考訳(メタデータ) (2020-05-19T13:04:02Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。