Fugu-MT 論文翻訳(概要): Generative Modelling for Controllable Audio Synthesis of Expressive Piano Performance

論文の概要: Generative Modelling for Controllable Audio Synthesis of Expressive Piano Performance

arxiv url: http://arxiv.org/abs/2006.09833v2
Date: Mon, 13 Jul 2020 03:44:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-20 21:55:30.278833
Title: Generative Modelling for Controllable Audio Synthesis of Expressive Piano Performance
Title（参考訳）: ピアノ演奏の制御可能な音声合成のための生成モデル
Authors: Hao Hao Tan, Yin-Jyun Luo, Dorien Herremans
Abstract要約: ガウス混合変分オートエンコーダ(GM-VAE)に基づく可制御型ニューラルオーディオシンセサイザーそこで本研究では,モデルが音声に対してきめ細かな形態変化を適用可能であることを実証する。
参考スコア（独自算出の注目度）: 6.531546527140474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a controllable neural audio synthesizer based on Gaussian Mixture Variational Autoencoders (GM-VAE), which can generate realistic piano performances in the audio domain that closely follows temporal conditions of two essential style features for piano performances: articulation and dynamics. We demonstrate how the model is able to apply fine-grained style morphing over the course of synthesizing the audio. This is based on conditions which are latent variables that can be sampled from the prior or inferred from other pieces. One of the envisioned use cases is to inspire creative and brand new interpretations for existing pieces of piano music.
Abstract（参考訳）: 本稿では,Gaussian Mixture Variational Autoencoders(GM-VAE)に基づく制御可能なニューラルオーディオシンセサイザーを提案する。音声合成の過程において,モデルがどのように微細な形態変化を適用できるかを示す。これは、前の変数からサンプリングしたり、他の要素から推論できる潜在変数である条件に基づいている。想定されたユースケースの1つは、既存のピアノ音楽の創造的で新しい解釈を刺激することである。

関連論文リスト

Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文参考訳（メタデータ） (2025-06-30T14:00:14Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
Controllable Music Production with Diffusion Models and Guidance Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文参考訳（メタデータ） (2023-11-01T16:01:01Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文参考訳（メタデータ） (2022-02-12T10:36:52Z)
MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文参考訳（メタデータ） (2021-12-17T04:15:42Z)
DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文参考訳（メタデータ） (2021-05-06T05:21:42Z)
Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文参考訳（メタデータ） (2021-04-06T17:24:57Z)
VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文参考訳（メタデータ） (2020-03-30T16:05:47Z)
Continuous Melody Generation via Disentangled Short-Term Representations and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文参考訳（メタデータ） (2020-02-05T06:23:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。