論文の概要: CycleDRUMS: Automatic Drum Arrangement For Bass Lines Using CycleGAN
- arxiv url: http://arxiv.org/abs/2104.00353v1
- Date: Thu, 1 Apr 2021 09:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:22:49.668068
- Title: CycleDRUMS: Automatic Drum Arrangement For Bass Lines Using CycleGAN
- Title(参考訳): CycleDRUMS:CycleGANを用いたバスラインの自動ドラムアレンジメント
- Authors: Giorgio Barnab\`o, Giovanni Trappolini, Lorenzo Lastilla, Cesare
Campagnano, Angela Fan, Fabio Petroni and Fabrizio Silvestri
- Abstract要約: CycleDRUMSはベースラインを与えられたドラムを生成する新しい方法である。
バスの波形をメル・スペクトログラムに変換した後、ビートに追従するオリジナルドラムを自動的に生成することができる。
- 参考スコア(独自算出の注目度): 12.93891163150604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The two main research threads in computer-based music generation are: the
construction of autonomous music-making systems, and the design of
computer-based environments to assist musicians. In the symbolic domain, the
key problem of automatically arranging a piece music was extensively studied,
while relatively fewer systems tackled this challenge in the audio domain. In
this contribution, we propose CycleDRUMS, a novel method for generating drums
given a bass line. After converting the waveform of the bass into a
mel-spectrogram, we are able to automatically generate original drums that
follow the beat, sound credible and can be directly mixed with the input bass.
We formulated this task as an unpaired image-to-image translation problem, and
we addressed it with CycleGAN, a well-established unsupervised style transfer
framework, originally designed for treating images. The choice to deploy raw
audio and mel-spectrograms enabled us to better represent how humans perceive
music, and to potentially draw sounds for new arrangements from the vast
collection of music recordings accumulated in the last century. In absence of
an objective way of evaluating the output of both generative adversarial
networks and music generative systems, we further defined a possible metric for
the proposed task, partially based on human (and expert) judgement. Finally, as
a comparison, we replicated our results with Pix2Pix, a paired image-to-image
translation network, and we showed that our approach outperforms it.
- Abstract(参考訳): コンピュータベースの音楽生成における2つの研究スレッドは、自律的な音楽制作システムの構築と、ミュージシャンを支援するコンピュータベースの環境の設計である。
シンボリックドメインでは、楽曲を自動アレンジする鍵となる問題は広範囲に研究され、オーディオ領域では比較的少ないシステムがこの問題に対処した。
そこで本研究では,ベースラインが与えられた新しいドラム生成法であるcycledrumsを提案する。
音の波形をメル・スペクトログラムに変換した後、ビートに追従する原音のドラムを自動生成し、入力ベースと直接混合することができる。
我々は,この課題を画像間翻訳問題として定式化し,画像処理用に設計された教師なしスタイル転送フレームワークであるCycleGANで対処した。
生のオーディオとメル・スペクトログラムを配置することで、人間が音楽をどのように知覚するかをより良く表現し、過去1世紀に蓄積された膨大な音楽録音から新たなアレンジメントのために音を描き出せるようになりました。
生成的敵対的ネットワークと音楽生成システムの双方の出力を評価する客観的な方法が存在しないため,提案課題について,部分的には人間(および専門家)の判断に基づいて,さらに評価基準を定めている。
最後に、画像と画像のペア翻訳ネットワークであるPix2Pixで結果を再現し、我々のアプローチがそれより優れていることを示した。
関連論文リスト
- MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Conditional Drums Generation using Compound Word Representations [4.435094091999926]
複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
論文 参考訳(メタデータ) (2022-02-09T13:49:27Z) - LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical
Parameters [12.72202888016628]
LoopNetは直感的なパラメータに条件付きループを生成するためのフィードフォワード生成モデルである。
我々は,音楽情報検索(MIR)モデルと公開ループサンプルの大量収集を活用している。
論文 参考訳(メタデータ) (2021-05-21T14:24:34Z) - Multi-Instrumentalist Net: Unsupervised Generation of Music from Body
Movements [20.627164135805852]
本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。
ログ・スペクトログラムから様々な楽器音楽の離散的な潜在表現を学習するパイプライン「Multi-instrumentalistNet」を構築した。
Midiは、パイプラインがビデオ内の楽器によって演奏される音楽の正確なコンテンツを生成するように、潜在空間をさらに調整できることを示しています。
論文 参考訳(メタデータ) (2020-12-07T06:54:10Z) - Music SketchNet: Controllable Music Generation via Factorized
Representations of Pitch and Rhythm [42.694266687511906]
Music SketchNetは、ユーザーが自動音楽生成を導く部分的な音楽アイデアを指定できるニューラルネットワークフレームワークである。
我々は、周囲の環境に配慮した不完全なモノフォニック音楽作品の欠落対策の作成に焦点をあてる。
生成プロセス中にユーザ指定スニペットをうまく組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:49:57Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。