論文の概要: Impact of time and note duration tokenizations on deep learning symbolic
music modeling
- arxiv url: http://arxiv.org/abs/2310.08497v1
- Date: Thu, 12 Oct 2023 16:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:32:57.915799
- Title: Impact of time and note duration tokenizations on deep learning symbolic
music modeling
- Title(参考訳): 時間と音符持続時間トークン化が深層学習記号音楽モデリングに及ぼす影響
- Authors: Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean-Pierre Briot
- Abstract要約: 共通トークン化手法を解析し、時間と音符の持続時間表現を実験する。
明示的な情報がタスクによってより良い結果をもたらすことを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic music is widely used in various deep learning tasks, including
generation, transcription, synthesis, and Music Information Retrieval (MIR). It
is mostly employed with discrete models like Transformers, which require music
to be tokenized, i.e., formatted into sequences of distinct elements called
tokens. Tokenization can be performed in different ways. As Transformer can
struggle at reasoning, but capture more easily explicit information, it is
important to study how the way the information is represented for such model
impact their performances. In this work, we analyze the common tokenization
methods and experiment with time and note duration representations. We compare
the performances of these two impactful criteria on several tasks, including
composer and emotion classification, music generation, and sequence
representation learning. We demonstrate that explicit information leads to
better results depending on the task.
- Abstract(参考訳): シンボリック音楽は、生成、転写、合成、音楽情報検索(MIR)など様々なディープラーニングタスクで広く使われている。
主に、音楽のトークン化を必要とするトランスフォーマーのような離散モデルで使用されており、トークンと呼ばれる異なる要素のシーケンスに形式化されている。
トークン化は様々な方法で行うことができる。
Transformerは推論に苦労するが、より容易に明示的な情報を取得するため、そのようなモデルに対する情報の表現方法がパフォーマンスに与える影響を研究することが重要である。
本研究では,共通トークン化手法を分析し,時間と音符の持続時間表現を実験する。
作曲・感情分類,音楽生成,シーケンス表現学習などのタスクにおいて,これらの2つの影響のある基準の性能を比較した。
明示的な情報がタスクによってより良い結果をもたらすことを示す。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Score Transformer: Generating Musical Score from Note-level
Representation [2.3554584457413483]
音符レベルの表現を適切な音楽表記に変換するためにトランスフォーマーモデルを訓練する。
また、モデルを扱うための効果的な表記レベルトークン表現についても検討する。
論文 参考訳(メタデータ) (2021-12-01T09:08:01Z) - Towards Cross-Cultural Analysis using Music Information Dynamics [7.4517333921953215]
異なる文化の音楽は、2つの面で異なるスタイルのコンベンションを持つことによって異なる美学を確立する。
本稿では,これら2つの側面に着目し,異なる文化の楽曲を定量的に比較する枠組みを提案する。
論文 参考訳(メタデータ) (2021-11-24T16:05:29Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。