論文の概要: Conditional Drums Generation using Compound Word Representations
- arxiv url: http://arxiv.org/abs/2202.04464v1
- Date: Wed, 9 Feb 2022 13:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 18:40:39.792540
- Title: Conditional Drums Generation using Compound Word Representations
- Title(参考訳): 複合語表現を用いた条件ドラム生成
- Authors: Dimos Makris, Guo Zixun, Maximos Kaliakatsos-Papakostas, Dorien
Herremans
- Abstract要約: 複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
- 参考スコア(独自算出の注目度): 4.435094091999926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of automatic music composition has seen great progress in recent
years, specifically with the invention of transformer-based architectures. When
using any deep learning model which considers music as a sequence of events
with multiple complex dependencies, the selection of a proper data
representation is crucial. In this paper, we tackle the task of conditional
drums generation using a novel data encoding scheme inspired by the Compound
Word representation, a tokenization process of sequential data. Therefore, we
present a sequence-to-sequence architecture where a Bidirectional Long
short-term memory (BiLSTM) Encoder receives information about the conditioning
parameters (i.e., accompanying tracks and musical attributes), while a
Transformer-based Decoder with relative global attention produces the generated
drum sequences. We conducted experiments to thoroughly compare the
effectiveness of our method to several baselines. Quantitative evaluation shows
that our model is able to generate drums sequences that have similar
statistical distributions and characteristics to the training corpus. These
features include syncopation, compression ratio, and symmetry among others. We
also verified, through a listening test, that generated drum sequences sound
pleasant, natural and coherent while they "groove" with the given
accompaniment.
- Abstract(参考訳): 自動作曲の分野は近年大きな進歩を遂げており、特にトランスフォーマーベースの建築が発明されている。
音楽を複数の複雑な依存関係を持つイベントのシーケンスと考えるディープラーニングモデルを使用する場合、適切なデータ表現の選択が不可欠である。
本稿では,逐次データのトークン化プロセスである複合語表現にインスパイアされた新しいデータ符号化方式を用いて,条件付きドラム生成の課題に取り組む。
そこで,両方向長短期メモリ(BiLSTM)エンコーダは条件パラメータ(トラックや音楽の属性など)の情報を受信し,トランスフォーマーベースのデコーダは相対的にグローバルな注意を払って生成したドラムシーケンスを生成するシーケンス・ツー・シーケンスアーキテクチャを提案する。
本手法の有効性をいくつかのベースラインと比較するために実験を行った。
定量的評価により,トレーニングコーパスに類似した統計分布と特性を有するドラムシーケンスを生成できることを示した。
これらの特徴にはシンコペーション、圧縮比、対称性などがある。
また, 聴取試験により, ドラム列の音質, 自然さ, コヒーレントさを, 伴奏の「グルーブ」で確認した。
関連論文リスト
- Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Predicting Music Hierarchies with a Graph-Based Neural Decoder [6.617487928813374]
本稿では,楽譜を依存木に解析するデータ駆動型フレームワークについて述べる。
依存木は、音楽認知研究や音楽分析に使用される階層構造である。
このシステムの大きな利点の1つは、近代的なディープラーニングパイプラインに簡単に統合できることである。
論文 参考訳(メタデータ) (2023-06-29T13:59:18Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - FIGARO: Generating Symbolic Music with Fine-Grained Artistic Control [25.95359681751144]
本稿では,グローバルレベルできめ細かな制御可能生成が可能な自己教師型記述系列タスクを提案する。
そこで本研究では、ターゲットシーケンスに関する高レベル特徴を抽出し、対応する高レベル記述が与えられたシーケンスの条件分布を、シーケンス・ツー・シーケンス・モデリング・セットアップで学習する。
学習された高次特徴と、強い帰納バイアスとして機能するドメイン知識を組み合わせることで、制御可能なシンボリック音楽生成の最先端結果を実現し、トレーニング分布をはるかに越えて一般化する。
論文 参考訳(メタデータ) (2022-01-26T13:51:19Z) - Generating Lead Sheets with Affect: A Novel Conditional seq2seq
Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。
私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。
提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文 参考訳(メタデータ) (2021-04-27T09:04:21Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。