論文の概要: An Comparative Analysis of Different Pitch and Metrical Grid Encoding
Methods in the Task of Sequential Music Generation
- arxiv url: http://arxiv.org/abs/2301.13383v1
- Date: Tue, 31 Jan 2023 03:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:41:15.907573
- Title: An Comparative Analysis of Different Pitch and Metrical Grid Encoding
Methods in the Task of Sequential Music Generation
- Title(参考訳): 逐次音楽生成課題におけるピッチと計量格子の符号化法の比較分析
- Authors: Yuqiang Li, Shengchen Li, George Fazekas
- Abstract要約: 本稿では,トークンベースの逐次音楽生成モデルの性能に及ぼすピッチとメーターの影響について分析する。
グリッド解像度は0(アブレーション),1(バーレベル),4(ダウンビートレベル),4(ダウンビートレベル),8(ダウンビートレベル),64(64番目のノートグリッドレベル)までのシングルトークンアプローチとマルチトークンアプローチを比較する。
以上の結果から,クラスオクターブの符号化は,ピッチ関連測定値に基づいてグラニュル化したMIDI符号化よりも有意に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 4.941630596191806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pitch and meter are two fundamental music features for symbolic music
generation tasks, where researchers usually choose different encoding methods
depending on specific goals. However, the advantages and drawbacks of different
encoding methods have not been frequently discussed. This paper presents a
integrated analysis of the influence of two low-level feature, pitch and meter,
on the performance of a token-based sequential music generation model. First,
the commonly used MIDI number encoding and a less used class-octave encoding
are compared. Second, an dense intra-bar metric grid is imposed to the encoded
sequence as auxiliary features. Different complexity and resolutions of the
metric grid are compared. For complexity, the single token approach and the
multiple token approach are compared; for grid resolution, 0 (ablation), 1
(bar-level), 4 (downbeat-level) 12, (8th-triplet-level) up to 64
(64th-note-grid-level) are compared; for duration resolution, 4, 8, 12 and 16
subdivisions per beat are compared. All different encodings are tested on
separately trained Transformer-XL models for a melody generation task.
Regarding distribution similarity of several objective evaluation metrics to
the test dataset, results suggest that the class-octave encoding significantly
outperforms the taken-for-granted MIDI encoding on pitch-related metrics; finer
grids and multiple-token grids improve the rhythmic quality, but also suffer
from over-fitting at early training stage. Results display a general phenomenon
of over-fitting from two aspects, the pitch embedding space and the test loss
of the single-token grid encoding. From a practical perspective, we both
demonstrate the feasibility and raise the concern of easy over-fitting problem
of using smaller networks and lower embedding dimensions on the generation
task. The findings can also contribute to futural models in terms of feature
engineering.
- Abstract(参考訳): ピッチとメーターは2つの基本的な音楽特徴であり、研究者は通常、特定の目標に応じて異なる符号化方法を選択する。
しかし、異なる符号化手法の利点と欠点は議論されていない。
本稿では,2つの低レベル特徴であるピッチとメーターがトークンベースの逐次音楽生成モデルの性能に与える影響を総合的に分析する。
まず、よく使われるMIDI数値エンコーディングとあまり使われていないクラスオクターブエンコーディングを比較した。
第二に、符号化されたシーケンスに高密度なバー内メートル法格子を補助特徴として課す。
メートル法グリッドの異なる複雑さと分解能を比較する。
複雑さについては、単一トークンのアプローチと複数トークンのアプローチを比較し、グリッドの解像度では0(エイブレーション)、1(バーレベル)、4(ダウンビートレベル)12(第8トリプレットレベル)から64(64番目のノートグリッドレベル)までを比較し、持続時間では4、8、12、16のサブディビジョンを比較する。
全ての異なるエンコーディングは、メロディ生成タスクのために個別に訓練されたTransformer-XLモデルでテストされる。
テストデータセットに対する複数の客観的評価指標の分布類似性について, クラスオクターブ符号化は, ピッチ関連指標を用いたMIDI符号化よりも有意に優れており, より微細な格子とマルチトーケングリッドはリズム品質を向上するが, 初期の訓練段階では過度に適合する。
その結果、ピッチ埋め込み空間と単分岐グリッドエンコーディングの試験損失という2つの側面からオーバーフィッティングの一般的な現象を示す。
実用的観点からは、我々はどちらも実現可能性を示し、より小さなネットワークとより低い埋め込み次元を生成タスクに使用することによる、容易な過適合問題の懸念を提起する。
この発見は、機能工学の観点で未来モデルにも貢献できる。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Rate Coding or Direct Coding: Which One is Better for Accurate, Robust,
and Energy-efficient Spiking Neural Networks? [4.872468969809081]
スパイキングニューラルネットワーク(SNN)は画像分類タスクに重点を置いているため、画像を時間的バイナリスパイクに変換するための様々なコーディング技術が提案されている。
これらのうち、レートコーディングとダイレクトコーディングは、実用的なSNNシステムを構築するための候補として期待されている。
我々は3つの視点から2つの符号化を包括的に分析する。
論文 参考訳(メタデータ) (2022-01-31T16:18:07Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z) - Hard Non-Monotonic Attention for Character-Level Transduction [65.17388794270694]
2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
論文 参考訳(メタデータ) (2018-08-29T20:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。