論文の概要: Learning To Generate Piano Music With Sustain Pedals
- arxiv url: http://arxiv.org/abs/2111.01216v1
- Date: Mon, 1 Nov 2021 19:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 00:19:16.445829
- Title: Learning To Generate Piano Music With Sustain Pedals
- Title(参考訳): 保持ペダルを用いたピアノ音楽生成の学習
- Authors: Joann Ching and Yi-Hsuan Yang
- Abstract要約: 我々は、AILabs1k7データセットにおけるピアノ演奏の音声記録からペダル情報を取得するために、Kongらによって提案された転写モデルを用いている。
次に、複合語変換器を改造して、ペダル関連トークンと他の音楽トークンを生成するトランスフォーマーデコーダを構築する。
- 参考スコア(独自算出の注目度): 36.9033909878202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed a growing interest in research related to the
detection of piano pedals from audio signals in the music information retrieval
community. However, to our best knowledge, recent generative models for
symbolic music have rarely taken piano pedals into account. In this work, we
employ the transcription model proposed by Kong et al. to get pedal information
from the audio recordings of piano performance in the AILabs1k7 dataset, and
then modify the Compound Word Transformer proposed by Hsiao et al. to build a
Transformer decoder that generates pedal-related tokens along with other
musical tokens. While the work is done by using inferred sustain pedal
information as training data, the result shows hope for further improvement and
the importance of the involvement of sustain pedal in tasks of piano
performance generations.
- Abstract(参考訳): 近年,音楽情報検索コミュニティにおいて,音楽信号からピアノペダルを検出する研究への関心が高まっている。
しかし、我々の知る限り、近年の象徴音楽の生成モデルは、ピアノのペダルを考慮に入れることはめったにない。
本研究では,Kongらが提案する転写モデルを用いて,AILabs1k7データセットにおけるピアノ演奏の音声記録からペダル情報を取得し,Hsiaoらが提案する複合語変換器を修正し,ペダル関連トークンを他の楽譜とともに生成するトランスフォーマーデコーダを構築する。
練習データとして推定された保持ペダル情報を用いて作業を行うが、ピアノ演奏世代の課題においてさらなる改善と保持ペダルの関与が期待できる。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - BumbleBee: A Transformer for Music [0.0]
MIDI音楽データを生成するトランスフォーマーモデルであるBumbleBeeを紹介する。
音楽変換器と長短項メモリ(LSTM)と比較する。
論文 参考訳(メタデータ) (2021-07-07T19:08:16Z) - PIANOTREE VAE: Structured Representation Learning for Polyphonic Music [9.428027257059469]
ポリフォニック音楽学習に適合することを目的とした,新たな木構造拡張であるPanoTree VAEを提案する。
実験により, ポリフォニックセグメントに対して, (i) 意味論的に有意な潜在符号を用いたピアノトレーVAEの有効性が証明された。 (ii) 潜在空間で学習された適切な幾何学の他に, (iii) 下流音楽生成におけるこのモデルの利点は, より満足できる。
論文 参考訳(メタデータ) (2020-08-17T06:48:59Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。