論文の概要: Setting the rhythm scene: deep learning-based drum loop generation from
arbitrary language cues
- arxiv url: http://arxiv.org/abs/2209.10016v1
- Date: Tue, 20 Sep 2022 21:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:00:49.594006
- Title: Setting the rhythm scene: deep learning-based drum loop generation from
arbitrary language cues
- Title(参考訳): リズムシーンの設定:任意の言語キューからの深層学習に基づくドラムループ生成
- Authors: Ignacio J. Tripodi
- Abstract要約: 言語キューの「ムード」を具現化した4ピースドラムパターンの2コンパスを生成する新しい手法を提案する。
我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。
このモデルのトレーニングサンプルを作成するため,各曲のコンセンサス・ドラムトラックを抽出する新たな手法を考案した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative artificial intelligence models can be a valuable aid to music
composition and live performance, both to aid the professional musician and to
help democratize the music creation process for hobbyists. Here we present a
novel method that, given an English word or phrase, generates 2 compasses of a
4-piece drum pattern that embodies the "mood" of the given language cue, or
that could be used for an audiovisual scene described by the language cue. We
envision this tool as composition aid for electronic music and audiovisual
soundtrack production, or an improvisation tool for live performance. In order
to produce the training samples for this model, besides manual annotation of
the "scene" or "mood" terms, we have designed a novel method to extract the
consensus drum track of any song. This consists of a 2-bar, 4-piece drum
pattern that represents the main percussive motif of a song, which could be
imported into any music loop device or live looping software. These two key
components (drum pattern generation from a generalizable input, and consensus
percussion extraction) present a novel approach to computer-aided composition
and provide a stepping stone for more comprehensive rhythm generation.
- Abstract(参考訳): 創造的な人工知能モデルは、プロのミュージシャンを助け、ホビイストのための音楽制作プロセスを民主化するために、音楽の構成とライブパフォーマンスにとって貴重な助けとなる。
ここでは、英単語やフレーズを与えられた場合、与えられた言語キューの「ムード」を具現化した4ピースドラムパターンの2つのコンパスを生成するか、言語キューによって記述された音声視覚シーンに使用できる新しい手法を提案する。
我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。
このモデルのトレーニングサンプルを作成するために,「シーン」や「ムード」といった用語の手動アノテーションに加えて,任意の曲のコンセンサスドラムトラックを抽出する新しい手法を考案した。
曲の主な打楽器的モチーフを表す2バールの4ピースのドラムパターンで構成されており、あらゆる音楽ループデバイスやライブループソフトウェアにインポートすることができる。
これら2つの重要な要素(一般化された入力からのドラムパターン生成とコンセンサスパーカッション抽出)は、コンピュータ支援合成に対する新しいアプローチを示し、より包括的なリズム生成のためのステップストーンを提供する。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Subtractive Training for Music Stem Insertion using Latent Diffusion Models [35.91945598575059]
本稿では,他の楽器を文脈として与えた個々の楽器茎を合成する方法であるSubtractive Trainingを提案する。
以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。
我々はこの技術をMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品をうまく生成する。
論文 参考訳(メタデータ) (2024-06-27T16:59:14Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Generating Coherent Drum Accompaniment With Fills And Improvisations [8.334918207379172]
4つのメロディック楽器が演奏する伴奏音楽に基づくドラムパターン生成の課題に取り組む。
本稿では,近隣のバーの即興度を推定する新規関数を提案する。
メロディック伴奏トラックから即興位置を予測するためのモデルを訓練する。
論文 参考訳(メタデータ) (2022-09-01T08:31:26Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - Artificial Neural Networks Jamming on the Beat [20.737171876839238]
本稿では,ドラムパターンの大規模データセットと対応するメロディについて述べる。
ドラムパターンの潜伏した空間を探索すれば 特定の音楽スタイルで 新しいドラムパターンを創り出すことができます
単純な人工ニューラルネットワークは、入力として使用されるドラムパッターに対応するメロディを生成するように訓練することができる。
論文 参考訳(メタデータ) (2020-07-13T10:09:20Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。