Fugu-MT 論文翻訳(概要): Setting the rhythm scene: deep learning-based drum loop generation from arbitrary language cues

論文の概要: Setting the rhythm scene: deep learning-based drum loop generation from arbitrary language cues

arxiv url: http://arxiv.org/abs/2209.10016v1
Date: Tue, 20 Sep 2022 21:53:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 16:00:49.594006
Title: Setting the rhythm scene: deep learning-based drum loop generation from arbitrary language cues
Title（参考訳）: リズムシーンの設定:任意の言語キューからの深層学習に基づくドラムループ生成
Authors: Ignacio J. Tripodi
Abstract要約: 言語キューの「ムード」を具現化した4ピースドラムパターンの2コンパスを生成する新しい手法を提案する。我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。このモデルのトレーニングサンプルを作成するため,各曲のコンセンサス・ドラムトラックを抽出する新たな手法を考案した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generative artificial intelligence models can be a valuable aid to music composition and live performance, both to aid the professional musician and to help democratize the music creation process for hobbyists. Here we present a novel method that, given an English word or phrase, generates 2 compasses of a 4-piece drum pattern that embodies the "mood" of the given language cue, or that could be used for an audiovisual scene described by the language cue. We envision this tool as composition aid for electronic music and audiovisual soundtrack production, or an improvisation tool for live performance. In order to produce the training samples for this model, besides manual annotation of the "scene" or "mood" terms, we have designed a novel method to extract the consensus drum track of any song. This consists of a 2-bar, 4-piece drum pattern that represents the main percussive motif of a song, which could be imported into any music loop device or live looping software. These two key components (drum pattern generation from a generalizable input, and consensus percussion extraction) present a novel approach to computer-aided composition and provide a stepping stone for more comprehensive rhythm generation.
Abstract（参考訳）: 創造的な人工知能モデルは、プロのミュージシャンを助け、ホビイストのための音楽制作プロセスを民主化するために、音楽の構成とライブパフォーマンスにとって貴重な助けとなる。ここでは、英単語やフレーズを与えられた場合、与えられた言語キューの「ムード」を具現化した4ピースドラムパターンの2つのコンパスを生成するか、言語キューによって記述された音声視覚シーンに使用できる新しい手法を提案する。我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。このモデルのトレーニングサンプルを作成するために,「シーン」や「ムード」といった用語の手動アノテーションに加えて,任意の曲のコンセンサスドラムトラックを抽出する新しい手法を考案した。曲の主な打楽器的モチーフを表す2バールの4ピースのドラムパターンで構成されており、あらゆる音楽ループデバイスやライブループソフトウェアにインポートすることができる。これら2つの重要な要素(一般化された入力からのドラムパターン生成とコンセンサスパーカッション抽出)は、コンピュータ支援合成に対する新しいアプローチを示し、より包括的なリズム生成のためのステップストーンを提供する。

関連論文リスト

Apollo: An Interactive Environment for Generating Symbolic Musical Phrases using Corpus-based Style Imitation [5.649205001069577]
本研究では,従来の西洋音楽の記号句を生成する対話型音楽アプリケーションApolloを紹介する。このシステムにより、音楽アーティストや研究者は、提案したコーパスのスタイルで新しい音楽フレーズを作成できる。 MIDIフォーマットでエンコードされた生成されたシンボリック・ミュージック・マテリアルは、様々な目的でエクスポートまたはストリーミングすることができる。
論文参考訳（メタデータ） (2025-04-18T19:53:51Z)
Interpreting Graphic Notation with MusicLDM: An AI Improvisation of Cornelius Cardew's Treatise [4.9485163144728235]
本研究はコーネリアス・カーデューの論文に触発された音楽の作曲と即興の手法を提示する。 OpenAIのChatGPTを利用して、論文の抽象的な視覚要素を解釈することにより、これらのグラフィカル画像を記述的テキストプロンプトに変換する。これらのプロンプトは、音楽生成用に事前訓練された潜在拡散モデルであるMusicLDMに入力される。
論文参考訳（メタデータ） (2024-12-12T05:08:36Z)
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。 MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-10-16T18:44:56Z)
SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文参考訳（メタデータ） (2024-09-09T19:37:07Z)
Subtractive Training for Music Stem Insertion using Latent Diffusion Models [35.91945598575059]
本稿では,他の楽器を文脈として与えた個々の楽器茎を合成する方法であるSubtractive Trainingを提案する。以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。我々はこの技術をMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品をうまく生成する。
論文参考訳（メタデータ） (2024-06-27T16:59:14Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文参考訳（メタデータ） (2023-06-15T17:58:01Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Generating Coherent Drum Accompaniment With Fills And Improvisations [8.334918207379172]
4つのメロディック楽器が演奏する伴奏音楽に基づくドラムパターン生成の課題に取り組む。本稿では,近隣のバーの即興度を推定する新規関数を提案する。メロディック伴奏トラックから即興位置を予測するためのモデルを訓練する。
論文参考訳（メタデータ） (2022-09-01T08:31:26Z)
Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。 ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文参考訳（メタデータ） (2022-08-11T08:44:47Z)
Towards Automatic Instrumentation by Learning to Separate Parts in Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文参考訳（メタデータ） (2021-07-13T08:34:44Z)
Artificial Neural Networks Jamming on the Beat [20.737171876839238]
本稿では,ドラムパターンの大規模データセットと対応するメロディについて述べる。ドラムパターンの潜伏した空間を探索すれば特定の音楽スタイルで新しいドラムパターンを創り出すことができます単純な人工ニューラルネットワークは、入力として使用されるドラムパッターに対応するメロディを生成するように訓練することができる。
論文参考訳（メタデータ） (2020-07-13T10:09:20Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。